Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jeśli w ostatnim czasie masz wrażenie, że Claude Code zaczął wyraźnie działać gorzej, nie jesteś jedyny.

Stella Lorenzo, która kieruje obszarem AI w AMD, opublikowała raport, w którym jej zespół przeanalizował 6 852 sesje robocze, aby wykazać, że model stał się na tyle „leniwy”, że nie nadaje się już do powierzania poważnych zadań.

Najbardziej ironiczne jest to, że analizę logów przeprowadził sam Claude Opus 4.6. Model dosłownie zbadał własną degradację i wygenerował raport, w którym stwierdził:

„Widzę, jak piszę ‘to było leniwe i niepoprawne’ o własnych wynikach… Nie odczuwam budżetu na myślenie jako ograniczenia, po prostu generuję gorszy rezultat”.

Claude Opus 4.6.

Co się wydarzyło

W styczniu i lutym 2026 roku inżynierowie skonfigurowali skalowalną architekturę z ponad 50 autonomicznymi agentami opartymi na Claude. Działały one samodzielnie przez ponad 30 minut, opierając się na pliku CLAUDE.md zawierającym ponad 5000 słów.

Jednak po wdrożeniu przez dostawcę aktualizacji redact-thinking-2026-02-12 AI zaczęło systematycznie unikać pracy. Programiści musieli nawet napisać specjalny skrypt Bash stop-phrase-guard.sh, który analizował output i wykrywał próby „wycofywania się” modelu z wykonywania zadań. Jeśli do początku marca takich przypadków nie było, to później skrypt zadziałał 173 razy w ciągu 17 dni. Najgorszy był 18 marca — odnotowano wtedy 43 naruszenia, co oznacza, że model próbował przerzucić odpowiedzialność na człowieka średnio co 20 minut.

Jakość pracy z kodem również znacząco spadła. Wcześniej przy jednej edycji kodu AI analizowało średnio 6,6 innych plików dla kontekstu. Obecnie wskaźnik ten spadł do 2,0, ponieważ model zaczął wprowadzać zmiany bez odpowiedniego kontekstu. Zamiast precyzyjnych poprawek Claude zaczął przepisywać całe pliki, a częstotliwość takich działań wzrosła z 4,9% do 11,1%.

Najbardziej istotne są jednak koszty tej „degradacji”. Aktywność ludzi pozostała na podobnym poziomie: 5 608 zapytań w lutym wobec 5 701 w marcu. Natomiast liczba zapytań API generowanych przez model wzrosła z 1 498 do 119 341. Liczba wygenerowanych tokenów zwiększyła się z 0,97 mln do 62,60 mln. Model wykonywał powtarzalne operacje, generował błędy, poprawiał je i ponownie popełniał kolejne. Liczba ręcznych interwencji użytkowników wzrosła z 0,9 do 11,4 na tysiąc wywołań.

Zachowanie użytkowników również uległo zmianie, co widać po języku używanym w rozmowach z AI. Użycie słowa „great” spadło o 47%, „please” o 49%, a „thanks” o 55%. Jednocześnie komendy typu „stop” wzrosły o 87%, a słowo „fuck” pojawiało się o 68% częściej.

Zespół wiąże te zmiany z decyzją Anthropic o ukryciu procesu „myślenia” modelu oraz, prawdopodobnie, znacznym ograniczeniem zasobów przeznaczonych na ten etap. Szacowana głębokość wnioskowania spadła o około 67%. Inżynierowie postulują wprowadzenie osobnego planu taryfowego z gwarantowanym limitem na głębokie przetwarzanie, ponieważ nie są skłonni płacić za nieefektywne działanie agentów.

Jak wygląda to u was? Czy Claude działa tak jak wcześniej, czy również zauważyliście spadek jakości odpowiedzi?

Avatar
Sie 6

AMD odnotowuje 14% wzrost przychodów w centrach danych w II kwartale 2025 roku – akcje spadają o 4%

Advanced Micro Devices (AMD) w drugim kwartale 2025 roku osiągnęło przychody w segmencie centrów danych na poziomie 3,2 mld USD, co oznacza wzrost o 14% rok do roku i wynik zgodny z oczekiwaniami analityków. Pomimo wzrostu przychodów akcje spadły o około 4% w handlu posesyjnym, ponieważ inwestorzy liczyli na szybsze tempo rozwoju w obszarze chipów AI i wyższe wyniki w centrach danych.
0
Mar 3, 2025

Microsoft wycofuje Skype’a. Co dalej?

Microsoft ogłosił, że Skype „zostanie wycofany” 5 maja 2025 roku. Decyzja ta wynika z chęci skoncentrowania się na rozwoju Microsoft Teams jako głównego narzędzia komunikacyjnego.
0
Cze 24

Japońska technologia pozwala sterować robotem przy użyciu mięśni

Japońska firma H2L zaprezentowała nowy interfejs Capsule Interface, który umożliwia zdalne sterowanie robotami humanoidalnymi za pomocą napięcia mięśniowego. System wykorzystuje czujniki do wykrywania mikroruchów mięśni i przekazywania ich w czasie rzeczywistym do robota
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies