Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jeśli w ostatnim czasie masz wrażenie, że Claude Code zaczął wyraźnie działać gorzej, nie jesteś jedyny.

Stella Lorenzo, która kieruje obszarem AI w AMD, opublikowała raport, w którym jej zespół przeanalizował 6 852 sesje robocze, aby wykazać, że model stał się na tyle „leniwy”, że nie nadaje się już do powierzania poważnych zadań.

Najbardziej ironiczne jest to, że analizę logów przeprowadził sam Claude Opus 4.6. Model dosłownie zbadał własną degradację i wygenerował raport, w którym stwierdził:

„Widzę, jak piszę ‘to było leniwe i niepoprawne’ o własnych wynikach… Nie odczuwam budżetu na myślenie jako ograniczenia, po prostu generuję gorszy rezultat”.

Claude Opus 4.6.

Co się wydarzyło

W styczniu i lutym 2026 roku inżynierowie skonfigurowali skalowalną architekturę z ponad 50 autonomicznymi agentami opartymi na Claude. Działały one samodzielnie przez ponad 30 minut, opierając się na pliku CLAUDE.md zawierającym ponad 5000 słów.

Jednak po wdrożeniu przez dostawcę aktualizacji redact-thinking-2026-02-12 AI zaczęło systematycznie unikać pracy. Programiści musieli nawet napisać specjalny skrypt Bash stop-phrase-guard.sh, który analizował output i wykrywał próby „wycofywania się” modelu z wykonywania zadań. Jeśli do początku marca takich przypadków nie było, to później skrypt zadziałał 173 razy w ciągu 17 dni. Najgorszy był 18 marca — odnotowano wtedy 43 naruszenia, co oznacza, że model próbował przerzucić odpowiedzialność na człowieka średnio co 20 minut.

Jakość pracy z kodem również znacząco spadła. Wcześniej przy jednej edycji kodu AI analizowało średnio 6,6 innych plików dla kontekstu. Obecnie wskaźnik ten spadł do 2,0, ponieważ model zaczął wprowadzać zmiany bez odpowiedniego kontekstu. Zamiast precyzyjnych poprawek Claude zaczął przepisywać całe pliki, a częstotliwość takich działań wzrosła z 4,9% do 11,1%.

Najbardziej istotne są jednak koszty tej „degradacji”. Aktywność ludzi pozostała na podobnym poziomie: 5 608 zapytań w lutym wobec 5 701 w marcu. Natomiast liczba zapytań API generowanych przez model wzrosła z 1 498 do 119 341. Liczba wygenerowanych tokenów zwiększyła się z 0,97 mln do 62,60 mln. Model wykonywał powtarzalne operacje, generował błędy, poprawiał je i ponownie popełniał kolejne. Liczba ręcznych interwencji użytkowników wzrosła z 0,9 do 11,4 na tysiąc wywołań.

Zachowanie użytkowników również uległo zmianie, co widać po języku używanym w rozmowach z AI. Użycie słowa „great” spadło o 47%, „please” o 49%, a „thanks” o 55%. Jednocześnie komendy typu „stop” wzrosły o 87%, a słowo „fuck” pojawiało się o 68% częściej.

Zespół wiąże te zmiany z decyzją Anthropic o ukryciu procesu „myślenia” modelu oraz, prawdopodobnie, znacznym ograniczeniem zasobów przeznaczonych na ten etap. Szacowana głębokość wnioskowania spadła o około 67%. Inżynierowie postulują wprowadzenie osobnego planu taryfowego z gwarantowanym limitem na głębokie przetwarzanie, ponieważ nie są skłonni płacić za nieefektywne działanie agentów.

Jak wygląda to u was? Czy Claude działa tak jak wcześniej, czy również zauważyliście spadek jakości odpowiedzi?

Avatar
Kwi 18, 2023

Sam Altman potwierdził, że OpenAI obecnie nie trenuje GPT-5

Podczas niedawnego przemówienia na MIT dyrektor generalny OpenAI Sam Altman potwierdził, że obecnie firma nie trenuje piątej wersji generatywnego modelu sztucznej inteligencji (GPT-5).
0
Kwi 29, 2025

OpenAI wprowadza zakupy w ChatGPT, konkurując z Google

OpenAI ogłosiło uruchomienie nowej funkcji zakupowej w ChatGPT – informuje TechCrunch. Użytkownicy mogą teraz wyszukiwać produkty, przeglądać rekomendacje oparte na recenzjach i opinii innych użytkowników, a następnie przechodzić bezpośrednio na strony sprzedawców w celu finalizacji zakupu. Funkcja jest dostępna zarówno dla użytkowników zalogowanych, jak i niezalogowanych, na całym świecie.
0
Sty 9, 2025

Sam Altman odpowiedział na pozew z zarzutami o przemoc seksualną wobec swojej siostry

Dyrektor generalny OpenAI, Sam Altman, we wtorek odniósł się do oskarżeń o przemoc seksualną wysuniętych przez jego młodszą siostrę, nazywając te zarzuty „całkowicie nieprawdziwymi”. O czym mowa w pozwie? Według informacji opublikowanych w Saint Louis Post Dispatch, w nowym pozwie złożonym w poniedziałek, Annie Altman oskarżyła swojego starszego brata o stosowanie przemocy seksualnej przez dziewięć lat w latach 1990 i 2000. Pozew ten powtarza zarzuty, które Annie już wcześniej przedstawiała w mediach społecznościowych w 2021 roku.
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies