Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jeśli w ostatnim czasie masz wrażenie, że Claude Code zaczął wyraźnie działać gorzej, nie jesteś jedyny.

Stella Lorenzo, która kieruje obszarem AI w AMD, opublikowała raport, w którym jej zespół przeanalizował 6 852 sesje robocze, aby wykazać, że model stał się na tyle „leniwy”, że nie nadaje się już do powierzania poważnych zadań.

Najbardziej ironiczne jest to, że analizę logów przeprowadził sam Claude Opus 4.6. Model dosłownie zbadał własną degradację i wygenerował raport, w którym stwierdził:

„Widzę, jak piszę ‘to było leniwe i niepoprawne’ o własnych wynikach… Nie odczuwam budżetu na myślenie jako ograniczenia, po prostu generuję gorszy rezultat”.

Claude Opus 4.6.

Co się wydarzyło

W styczniu i lutym 2026 roku inżynierowie skonfigurowali skalowalną architekturę z ponad 50 autonomicznymi agentami opartymi na Claude. Działały one samodzielnie przez ponad 30 minut, opierając się na pliku CLAUDE.md zawierającym ponad 5000 słów.

Jednak po wdrożeniu przez dostawcę aktualizacji redact-thinking-2026-02-12 AI zaczęło systematycznie unikać pracy. Programiści musieli nawet napisać specjalny skrypt Bash stop-phrase-guard.sh, który analizował output i wykrywał próby „wycofywania się” modelu z wykonywania zadań. Jeśli do początku marca takich przypadków nie było, to później skrypt zadziałał 173 razy w ciągu 17 dni. Najgorszy był 18 marca — odnotowano wtedy 43 naruszenia, co oznacza, że model próbował przerzucić odpowiedzialność na człowieka średnio co 20 minut.

Jakość pracy z kodem również znacząco spadła. Wcześniej przy jednej edycji kodu AI analizowało średnio 6,6 innych plików dla kontekstu. Obecnie wskaźnik ten spadł do 2,0, ponieważ model zaczął wprowadzać zmiany bez odpowiedniego kontekstu. Zamiast precyzyjnych poprawek Claude zaczął przepisywać całe pliki, a częstotliwość takich działań wzrosła z 4,9% do 11,1%.

Najbardziej istotne są jednak koszty tej „degradacji”. Aktywność ludzi pozostała na podobnym poziomie: 5 608 zapytań w lutym wobec 5 701 w marcu. Natomiast liczba zapytań API generowanych przez model wzrosła z 1 498 do 119 341. Liczba wygenerowanych tokenów zwiększyła się z 0,97 mln do 62,60 mln. Model wykonywał powtarzalne operacje, generował błędy, poprawiał je i ponownie popełniał kolejne. Liczba ręcznych interwencji użytkowników wzrosła z 0,9 do 11,4 na tysiąc wywołań.

Zachowanie użytkowników również uległo zmianie, co widać po języku używanym w rozmowach z AI. Użycie słowa „great” spadło o 47%, „please” o 49%, a „thanks” o 55%. Jednocześnie komendy typu „stop” wzrosły o 87%, a słowo „fuck” pojawiało się o 68% częściej.

Zespół wiąże te zmiany z decyzją Anthropic o ukryciu procesu „myślenia” modelu oraz, prawdopodobnie, znacznym ograniczeniem zasobów przeznaczonych na ten etap. Szacowana głębokość wnioskowania spadła o około 67%. Inżynierowie postulują wprowadzenie osobnego planu taryfowego z gwarantowanym limitem na głębokie przetwarzanie, ponieważ nie są skłonni płacić za nieefektywne działanie agentów.

Jak wygląda to u was? Czy Claude działa tak jak wcześniej, czy również zauważyliście spadek jakości odpowiedzi?

Avatar
Mar 31, 2025

xAI przejmuje X. Musk lączy swoje firmy w ramach jednej wizji AI

xAI, startup Elona Muska zajmujący się rozwojem sztucznej inteligencji, formalnie przejął platformę społecznościową X (dawniej Twitter) w ramach transakcji wymiany akcji. Wycena X wyniosła 33 mld dol., natomiast xAI – 80 mld dol.
0
Lip 25

Intel wstrzymuje projekty produkcyjne w Europie i przeprowadza kolejne layoffy

W drugim kwartale 2025 roku Intel ogłosił rezygnację z kolejnych projektów produkcyjnych w ramach planu restrukturyzacji wdrażanego przez nowego CEO, Lip-Bu Tana – informuje TechCrunch. Firma potwierdziła, że nie będzie kontynuować wcześniej zapowiedzianych inwestycji w Niemczech i Polsce. Dotyczy to fabryki układów scalonych w Magdeburgu oraz centrum montażu i testowania w okolicach Wrocławia. Oba projekty pozostawały zawieszone od 2024 roku.
0
Cze 18

Intel planuje zwolnić nawet 20% pracowników działu Foundry

Intel ogłosił, że w lipcu rozpocznie się kolejna fala zwolnień, obejmująca od 15% do 20% pracowników działu Intel Foundry. Segment ten odpowiada za projektowanie, produkcję i pakowanie chipów dla klientów zewnętrznych
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies