Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jeśli w ostatnim czasie masz wrażenie, że Claude Code zaczął wyraźnie działać gorzej, nie jesteś jedyny.

Stella Lorenzo, która kieruje obszarem AI w AMD, opublikowała raport, w którym jej zespół przeanalizował 6 852 sesje robocze, aby wykazać, że model stał się na tyle „leniwy”, że nie nadaje się już do powierzania poważnych zadań.

Najbardziej ironiczne jest to, że analizę logów przeprowadził sam Claude Opus 4.6. Model dosłownie zbadał własną degradację i wygenerował raport, w którym stwierdził:

„Widzę, jak piszę ‘to było leniwe i niepoprawne’ o własnych wynikach… Nie odczuwam budżetu na myślenie jako ograniczenia, po prostu generuję gorszy rezultat”.

Claude Opus 4.6.

Co się wydarzyło

W styczniu i lutym 2026 roku inżynierowie skonfigurowali skalowalną architekturę z ponad 50 autonomicznymi agentami opartymi na Claude. Działały one samodzielnie przez ponad 30 minut, opierając się na pliku CLAUDE.md zawierającym ponad 5000 słów.

Jednak po wdrożeniu przez dostawcę aktualizacji redact-thinking-2026-02-12 AI zaczęło systematycznie unikać pracy. Programiści musieli nawet napisać specjalny skrypt Bash stop-phrase-guard.sh, który analizował output i wykrywał próby „wycofywania się” modelu z wykonywania zadań. Jeśli do początku marca takich przypadków nie było, to później skrypt zadziałał 173 razy w ciągu 17 dni. Najgorszy był 18 marca — odnotowano wtedy 43 naruszenia, co oznacza, że model próbował przerzucić odpowiedzialność na człowieka średnio co 20 minut.

Jakość pracy z kodem również znacząco spadła. Wcześniej przy jednej edycji kodu AI analizowało średnio 6,6 innych plików dla kontekstu. Obecnie wskaźnik ten spadł do 2,0, ponieważ model zaczął wprowadzać zmiany bez odpowiedniego kontekstu. Zamiast precyzyjnych poprawek Claude zaczął przepisywać całe pliki, a częstotliwość takich działań wzrosła z 4,9% do 11,1%.

Najbardziej istotne są jednak koszty tej „degradacji”. Aktywność ludzi pozostała na podobnym poziomie: 5 608 zapytań w lutym wobec 5 701 w marcu. Natomiast liczba zapytań API generowanych przez model wzrosła z 1 498 do 119 341. Liczba wygenerowanych tokenów zwiększyła się z 0,97 mln do 62,60 mln. Model wykonywał powtarzalne operacje, generował błędy, poprawiał je i ponownie popełniał kolejne. Liczba ręcznych interwencji użytkowników wzrosła z 0,9 do 11,4 na tysiąc wywołań.

Zachowanie użytkowników również uległo zmianie, co widać po języku używanym w rozmowach z AI. Użycie słowa „great” spadło o 47%, „please” o 49%, a „thanks” o 55%. Jednocześnie komendy typu „stop” wzrosły o 87%, a słowo „fuck” pojawiało się o 68% częściej.

Zespół wiąże te zmiany z decyzją Anthropic o ukryciu procesu „myślenia” modelu oraz, prawdopodobnie, znacznym ograniczeniem zasobów przeznaczonych na ten etap. Szacowana głębokość wnioskowania spadła o około 67%. Inżynierowie postulują wprowadzenie osobnego planu taryfowego z gwarantowanym limitem na głębokie przetwarzanie, ponieważ nie są skłonni płacić za nieefektywne działanie agentów.

Jak wygląda to u was? Czy Claude działa tak jak wcześniej, czy również zauważyliście spadek jakości odpowiedzi?

Avatar
Jul 3, 2023

11 bit studios zaprasza graczy w Polsce do testowania The Alters

Polska firma 11 bit studios ogłosiła nabór uczestników do testów The Alters.
0
Aug 11

Linus Torvalds krytykuje kod RISC-V od inżyniera Google: „To śmieci, które czynią świat gorszym miejscem”

Założyciel i główny twórca systemu Linux, Linus Torvalds, odrzucił propozycję włączenia kodu dla architektury RISC-V przesłaną przez inżyniera Google, określając ją jako „śmieci”. Pull request dotyczący wersji Linux 6.17 został wysłany 8 sierpnia, jednak Torvalds skrytykował zarówno jego jakość, jak i zbyt późny termin dostarczenia.
0
Aug 1

Anthropic wyprzedza OpenAI wśród firm – modele Claude dominują w zastosowaniach biznesowych

Modele sztucznej inteligencji Anthropic stały się najczęściej używanymi w przedsiębiorstwach, wyprzedzając konkurencję z OpenAI. Według raportu Menlo Ventures, Anthropic osiągnął 32% udziału w rynku dużych modeli językowych dla firm, podczas gdy OpenAI zajmuje drugie miejsce z wynikiem 25%.
0

This site uses cookies to offer you a better browsing experience.

Find out more on how we use cookies and how to change cookie preferences in our Cookies Policy.

Customize
Save Accept all cookies