ChatGPT odpowiada poprawnie tylko na 48% pytań programistycznych

ChatGPT odpowiada poprawnie tylko na 48% pytań programistycznych

​​Naukowcy postanowili przetestować ogólne umiejętności i wiedzę ChatGPT w zakresie programowania i zadali modelowi dużą liczbę pytań programistycznych. W rezultacie model językowy odpowiedział nieprawidłowo na ponad połowę pytań.

W badaniu przeprowadzonym przez Purdue University naukowcy zadali ChatGPT 517 pytań dot. Stack Overflow. Odpowiedzi były oceniane nie tylko pod kątem poprawności, ale także spójności, kompletności i zwięzłości. Zespół przeanalizował również styl językowy i ton odpowiedzi.

Nie był to najlepszy eksperyment dla ChatGPT. Narzędzie OpenAI odpowiedziało poprawnie tylko na 48% pytań, a 77% z nich określono jako "rozwlekłe".

Jednak ze względu na kompleksowość i styl językowy egzaminatorzy zatwierdzili prawie 40% odpowiedzi ChatGPT. Niestety, 77% tych odpowiedzi było niepoprawnych.

"Zauważyliśmy, że użytkownicy mogą zidentyfikować błąd ChatGPT tylko wtedy, gdy jest on oczywisty" — komentują badacze. "Jednak gdy błąd jest trudny do zweryfikowania lub wymaga zewnętrznego IDE lub dokumentacji, użytkownicy często go nie identyfikują lub nie doceniają".

A jakie jest wasze doświadczenie z ChatGPT? Przyzwyczailiście się do korzystania z niego?

Avatar
Mar 16, 2025

Do sieci trafiły zdjęcia wszystkich modeli iPhone 17. Najciekawszy jest ultracienki iPhone 17 Air

W sieci pojawiły się nowe przecieki, które ujawniają szczegóły designu przyszłej serii iPhone 17, zwłaszcza modelu iPhone 17 Air. Znany informator Sonny Dickson opublikował zdjęcia makiet urządzeń.
0
Lut 13

Anthropic pozyskuje 30 mld USD. Claude Code odpowiada za dynamiczny wzrost przychodów

Anthropic pozyskał 30 mld dolarów w najnowszej rundzie finansowania, podnosząc wycenę spółki do 380 mld dolarów — ponad dwukrotnie więcej niż we wrześniu, gdy wycena wynosiła 183 mld dolarów, – informuje Reuters. Runda była współprowadzona przez D. E. Shaw Ventures, ICONIQ oraz MGX, a obejmowała również część wcześniej zapowiedzianych inwestycji Microsoftu i Nvidii. Spółkę wspierają także Google i Amazon.
0
Mar 4, 2025

Super Mario Bros. jako nowy benchmark dla AI – które modele radzą sobie najlepiej?

Wydawało się, że Pokémon jest trudnym testem dla AI, ale badacze twierdzą, że Super Mario Bros. stanowi jeszcze większe wyzwanie. Hao AI Lab, jednostka badawcza Uniwersytetu Kalifornijskiego w San Diego, przeprowadziła eksperyment, w którym różne modele AI próbowały pokonać kultową grę Nintendo z 1985 roku.
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies