Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jak spalić 42 000 dolarów na API albo dlaczego Claude nagle zaczął wyraźnie obniżać jakość pracy

Jeśli w ostatnim czasie masz wrażenie, że Claude Code zaczął wyraźnie działać gorzej, nie jesteś jedyny.

Stella Lorenzo, która kieruje obszarem AI w AMD, opublikowała raport, w którym jej zespół przeanalizował 6 852 sesje robocze, aby wykazać, że model stał się na tyle „leniwy”, że nie nadaje się już do powierzania poważnych zadań.

Najbardziej ironiczne jest to, że analizę logów przeprowadził sam Claude Opus 4.6. Model dosłownie zbadał własną degradację i wygenerował raport, w którym stwierdził:

„Widzę, jak piszę ‘to było leniwe i niepoprawne’ o własnych wynikach… Nie odczuwam budżetu na myślenie jako ograniczenia, po prostu generuję gorszy rezultat”.

Claude Opus 4.6.

Co się wydarzyło

W styczniu i lutym 2026 roku inżynierowie skonfigurowali skalowalną architekturę z ponad 50 autonomicznymi agentami opartymi na Claude. Działały one samodzielnie przez ponad 30 minut, opierając się na pliku CLAUDE.md zawierającym ponad 5000 słów.

Jednak po wdrożeniu przez dostawcę aktualizacji redact-thinking-2026-02-12 AI zaczęło systematycznie unikać pracy. Programiści musieli nawet napisać specjalny skrypt Bash stop-phrase-guard.sh, który analizował output i wykrywał próby „wycofywania się” modelu z wykonywania zadań. Jeśli do początku marca takich przypadków nie było, to później skrypt zadziałał 173 razy w ciągu 17 dni. Najgorszy był 18 marca — odnotowano wtedy 43 naruszenia, co oznacza, że model próbował przerzucić odpowiedzialność na człowieka średnio co 20 minut.

Jakość pracy z kodem również znacząco spadła. Wcześniej przy jednej edycji kodu AI analizowało średnio 6,6 innych plików dla kontekstu. Obecnie wskaźnik ten spadł do 2,0, ponieważ model zaczął wprowadzać zmiany bez odpowiedniego kontekstu. Zamiast precyzyjnych poprawek Claude zaczął przepisywać całe pliki, a częstotliwość takich działań wzrosła z 4,9% do 11,1%.

Najbardziej istotne są jednak koszty tej „degradacji”. Aktywność ludzi pozostała na podobnym poziomie: 5 608 zapytań w lutym wobec 5 701 w marcu. Natomiast liczba zapytań API generowanych przez model wzrosła z 1 498 do 119 341. Liczba wygenerowanych tokenów zwiększyła się z 0,97 mln do 62,60 mln. Model wykonywał powtarzalne operacje, generował błędy, poprawiał je i ponownie popełniał kolejne. Liczba ręcznych interwencji użytkowników wzrosła z 0,9 do 11,4 na tysiąc wywołań.

Zachowanie użytkowników również uległo zmianie, co widać po języku używanym w rozmowach z AI. Użycie słowa „great” spadło o 47%, „please” o 49%, a „thanks” o 55%. Jednocześnie komendy typu „stop” wzrosły o 87%, a słowo „fuck” pojawiało się o 68% częściej.

Zespół wiąże te zmiany z decyzją Anthropic o ukryciu procesu „myślenia” modelu oraz, prawdopodobnie, znacznym ograniczeniem zasobów przeznaczonych na ten etap. Szacowana głębokość wnioskowania spadła o około 67%. Inżynierowie postulują wprowadzenie osobnego planu taryfowego z gwarantowanym limitem na głębokie przetwarzanie, ponieważ nie są skłonni płacić za nieefektywne działanie agentów.

Jak wygląda to u was? Czy Claude działa tak jak wcześniej, czy również zauważyliście spadek jakości odpowiedzi?

Avatar
Kwi 28

xAI Holdings Elona Muska może pozyskać 20 mld dolarów – drugi co do wielkości wynik w historii startupów

Startup xAI Holdings, utworzony przez Elona Muska w marcu 2025 roku przez połączenie firmy rozwijającej modele sztucznej inteligencji (xAI) oraz platformy społecznościowej X (dawniej Twitter), prowadzi rozmowy z inwestorami w sprawie pozyskania aż 20 mld dolarów finansowania. Oznaczałoby to wycenę spółki na ponad 120 mld dolarów – informuje Bloomberg.
0
Cze 13

Globalna awaria Google Cloud sparaliżowała działanie usług Spotify, Discorda, Snapchata i Character.AI

W czwartek 12 czerwca 2025 roku doszło do globalnej awarii usług Google Cloud, która zakłóciła funkcjonowanie wielu znanych platform, takich jak Spotify, Discord, Snapchat czy Character.AI. Przerwa w działaniu rozpoczęła się około godziny 19:50 czasu środkowoeuropejskiego (GMT +2) i wpłynęła na działanie usług opartych na infrastrukturze chmurowej Google.
0
Kwi 30

Meta uruchamia Llama API i nowe narzędzia open source na konferencji LlamaCon 2025

Podczas pierwszej edycji konferencji LlamaCon, która odbyła się we wtorek w siedzibie Meta w Menlo Park, firma zaprezentowała nowy zestaw narzędzi dla twórców rozwiązań AI opartych na modelach Llama. Wydarzenie miało charakter międzynarodowy, a głównym celem Meta jest zwiększenie adopcji własnych otwartych modeli AI i wzmocnienie pozycji wobec dostawców zamkniętych rozwiązań, takich jak OpenAI.
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies