Nowe badanie pokazuje, że ChatGPT robi się coraz głupszy

Ostatnie badania wywołały ciekawą dyskusję na temat biegłości ChatGPT, zwłaszcza wersji GPT-3,5 i GPT-4. Te dwie iteracje zdominowały rynek jako duże usługi modeli językowych.

Jednak zaobserwowano kłopotliwą mieszankę wzlotów i upadków wydajności w okresie od marca do czerwca 2023 r. Co więcej niektórzy zastanawiają się, czy ChatGPT nie staje się coraz głupszy.

Sponsored

Aktualizacje ChatGPT nie ustępują starszym wersjom

Uznani naukowcy z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley przeanalizowali biegłość ChatGPT w różnych zadaniach. Centralnym punktem tej kompleksowej oceny była dramatyczna niespójność zaobserwowana w jego wydajności na przestrzeni trzech miesięcy.

Niezgodność ta dziwi nie tylko ekspertów. Podkreśla ona naturę technologii sztucznej inteligecji (AI) i konieczność konsekwentnego monitorowania jej jakości. W raporcie czytamy:

“Nasze odkrycia pokazują, że zachowanie ‘tej samej’ usługi LLM [dużego modelu językowego] może się znacznie zmienić w stosunkowo krótkim czasie.”

Wydajność AI — Wydajność różnych wersji ChatGPT / Źródło: arXiv

Zagłębiając się w szczegóły, umiejętności rozwiązywania problemów matematycznych w GPT-4 wykazały szokujący spadek biegłości w identyfikowaniu liczb pierwszych.

Sponsored

Rzeczywiście, wskaźniki dokładności spadły z wysokiego poziomu 97,6% w marcu do alarmujących 2,4% w czerwcu. Dla kontrastu, jego poprzednik, GPT-3,5, wykazał znaczną poprawę w tym samym okresie, wzrastając z 7,4% do 86,8%.

Wyraźne kontrasty dezorientują ekspertów branżowych. Przecież można by oczekiwać, że nowsze wersje będą lepsze od swoich poprzedników. Rodzi to obawy o to, w jaki sposób “aktualizacje” i “ulepszenia” naprawdę wpływają na możliwości sztucznej inteligencji.

Brak szczegółowych wyjaśnień i generowania kodu

Gdy zapytano o te drażliwe kwestie, badania ukazały inny frapujący aspekt. GPT-4 wykazało znaczną redukcję bezpośrednich odpowiedzi na newralgiczne kwestie w okresie od marca do czerwca. Wskazuje to na wzmocnienie warstwy bezpieczeństwa.

Zauważalne było jednak skrócenie wygenerowanych wyjaśnień w przypadku odmowy udzielenia odpowiedzi. Wywołało to spekulacje na temat tego, czy model nie błądzi po stronie ostrożności. Z kolei to może mieć negatywny wpływ na zaangażowanie użytkowników i przejrzystość.

Sponsored

ChatGPT - porównanie wersji — ChatGPT 3,5 vs ChatGPT 4,0 / Źródło: arXiv

Jednak nie wszystko było takie ponure. Badanie wskazało kluczowy obszar, w którym GPT-4 i do pewnego stopnia GPT-3,5 wykazały niewielką poprawę: rozumowanie wizualne. Chociaż ogólne wskaźniki sukcesu pozostały stosunkowo niskie, istniały dowody na ewolucję ich wydajności.

To, co naprawdę się wyróżnia, to nieprzewidywalność tej technologii. Biegłość GPT-4 w generowaniu kodu wykazała spadek w tworzeniu kodu bezpośrednio wykonywalnego. Na nowo przywołuje to obawy dla branż polegających na tych modelach. Niespójności mogą siać spustoszenie w większych ekosystemach oprogramowania.

Sponsored

Nie można pozwolić sobie na samozadowolenie z ChatGPT

Kluczowym wnioskiem z tej dogłębnej analizy nie są wahania wydajności GPT-4 i GPT-3,5. Najważniejsza pozostaje lekcja na temat nietrwałości wydajności sztucznej inteligencji.

Wraz z szybkim postępem technologicznym istnieje ukryte założenie, że nowsze modele przewyższą swoich poprzedników. Niniejsze badanie podważa to założenie.

Przesłaniem dla firm i deweloperów mocno zaangażowanych w ChatGPT jest regularne monitorowanie i ocena tych modeli. Ponieważ technologia AI kontynuuje swój rozwój, badanie to jest wyraźnym przypomnieniem, że postęp nie jest liniowy.

Użycie ChatGPT na świecie — Firmy na świecie, które używają ChatGPT / Źródło: Statista

Założenie, że nowsze jest zawsze lepsze, może być nadmiernym uproszczeniem, z którym społeczność technologiczna musi się zmierzyć. Nieobliczalne zachowanie GPT-4 i GPT-3,5 w ciągu kilku miesięcy zwiększa pilną potrzebę zachowania czujności, oceny i ponownej kalibracji. Ponadto zapewnia, że technologia służy zamierzonemu celowi z oczekiwaną wydajnością.

Zastrzeżenie

Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.

Przeczytaj następny

TOP 3 gemy z największymi wzrostami w ekosystemie x402

Sekcja AI

Technologia

14 dni temu

TOP 3 gemy z największymi wzrostami w ekosystemie x402