ChatGPT odpowiada poprawnie tylko na 48% pytań programistycznych

ChatGPT odpowiada poprawnie tylko na 48% pytań programistycznych

​​Naukowcy postanowili przetestować ogólne umiejętności i wiedzę ChatGPT w zakresie programowania i zadali modelowi dużą liczbę pytań programistycznych. W rezultacie model językowy odpowiedział nieprawidłowo na ponad połowę pytań.

W badaniu przeprowadzonym przez Purdue University naukowcy zadali ChatGPT 517 pytań dot. Stack Overflow. Odpowiedzi były oceniane nie tylko pod kątem poprawności, ale także spójności, kompletności i zwięzłości. Zespół przeanalizował również styl językowy i ton odpowiedzi.

Nie był to najlepszy eksperyment dla ChatGPT. Narzędzie OpenAI odpowiedziało poprawnie tylko na 48% pytań, a 77% z nich określono jako "rozwlekłe".

Jednak ze względu na kompleksowość i styl językowy egzaminatorzy zatwierdzili prawie 40% odpowiedzi ChatGPT. Niestety, 77% tych odpowiedzi było niepoprawnych.

"Zauważyliśmy, że użytkownicy mogą zidentyfikować błąd ChatGPT tylko wtedy, gdy jest on oczywisty" — komentują badacze. "Jednak gdy błąd jest trudny do zweryfikowania lub wymaga zewnętrznego IDE lub dokumentacji, użytkownicy często go nie identyfikują lub nie doceniają".

A jakie jest wasze doświadczenie z ChatGPT? Przyzwyczailiście się do korzystania z niego?

Avatar
Lip 17

Przemysław Dębiak „Psyho” pokonuje AI w finale konkursu programistycznego AtCoder

Przemysław Dębiak, uznany polski programista algorytmiczny znany jako „Psyho”, zwyciężył w AtCoder World Tour Finals 2025 (Heuristic Division) — najbardziej prestiżowym konkursie programistycznym dla ekspertów od problemów optymalizacyjnych. Pokonał 11 najlepszych zawodników oraz system oparty na sztucznej inteligencji (AI), który uplasował się na drugim miejscu.
0
Sty 8, 2025

6 tez Sama Altmana o koszcie ChatGPT, rekrutacji inżynierów i konflikcie z radą dyrektorów OpenAI

Dyrektor generalny OpenAI, Sam Altman, udzielił obszernego wywiadu, w którym wspomniał o konflikcie z zarządem w 2023 roku, opowiedział o swoim harmonogramie pracy, opcjach cenowych ChatGPT oraz o tym, jak firmie udało się przyciągnąć najbardziej utalentowanych inżynierów. Oto najważniejsze tezy z artykułu Bloomberga.
0
Maj 8

Apple próbuje wstrzymać wykonanie decyzji sądu ws. linków płatniczych poza App Store

Apple złożyło apelację do Sądu Apelacyjnego Dziewiątego Okręgu USA, domagając się wstrzymania wykonania części wyroku sędzi Yvonne Gonzalez Rogers z zeszłego tygodnia. Chodzi o zakaz pobierania prowizji od płatności przekierowanych poza App Store oraz ograniczania języka i wyglądu linków do zewnętrznych stron płatniczych.
0

Ta strona używa plików cookie, aby zapewnić Ci lepsze wrażenia podczas przeglądania.

Dowiedz się więcej o tym, jak używamy plików cookie i jak zmienić preferencje dotyczące plików cookie w naszej Polityka plików cookie.

Zmień ustawienia
Zapisz Akceptuj wszystkie cookies