Ostatnie badania wywołały ciekawą dyskusję na temat biegłości ChatGPT, zwłaszcza wersji GPT-3,5 i GPT-4. Te dwie iteracje zdominowały rynek jako duże usługi modeli językowych.
Jednak zaobserwowano kłopotliwą mieszankę wzlotów i upadków wydajności w okresie od marca do czerwca 2023 r. Co więcej niektórzy zastanawiają się, czy ChatGPT nie staje się coraz głupszy.
Aktualizacje ChatGPT nie ustępują starszym wersjom
Uznani naukowcy z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley przeanalizowali biegłość ChatGPT w różnych zadaniach. Centralnym punktem tej kompleksowej oceny była dramatyczna niespójność zaobserwowana w jego wydajności na przestrzeni trzech miesięcy.
Niezgodność ta dziwi nie tylko ekspertów. Podkreśla ona naturę technologii sztucznej inteligecji (AI) i konieczność konsekwentnego monitorowania jej jakości. W raporcie czytamy:
“Nasze odkrycia pokazują, że zachowanie ‘tej samej’ usługi LLM [dużego modelu językowego] może się znacznie zmienić w stosunkowo krótkim czasie.”
Zagłębiając się w szczegóły, umiejętności rozwiązywania problemów matematycznych w GPT-4 wykazały szokujący spadek biegłości w identyfikowaniu liczb pierwszych.
Rzeczywiście, wskaźniki dokładności spadły z wysokiego poziomu 97,6% w marcu do alarmujących 2,4% w czerwcu. Dla kontrastu, jego poprzednik, GPT-3,5, wykazał znaczną poprawę w tym samym okresie, wzrastając z 7,4% do 86,8%.
Wyraźne kontrasty dezorientują ekspertów branżowych. Przecież można by oczekiwać, że nowsze wersje będą lepsze od swoich poprzedników. Rodzi to obawy o to, w jaki sposób “aktualizacje” i “ulepszenia” naprawdę wpływają na możliwości sztucznej inteligencji.
Brak szczegółowych wyjaśnień i generowania kodu
Gdy zapytano o te drażliwe kwestie, badania ukazały inny frapujący aspekt. GPT-4 wykazało znaczną redukcję bezpośrednich odpowiedzi na newralgiczne kwestie w okresie od marca do czerwca. Wskazuje to na wzmocnienie warstwy bezpieczeństwa.
Zauważalne było jednak skrócenie wygenerowanych wyjaśnień w przypadku odmowy udzielenia odpowiedzi. Wywołało to spekulacje na temat tego, czy model nie błądzi po stronie ostrożności. Z kolei to może mieć negatywny wpływ na zaangażowanie użytkowników i przejrzystość.
Jednak nie wszystko było takie ponure. Badanie wskazało kluczowy obszar, w którym GPT-4 i do pewnego stopnia GPT-3,5 wykazały niewielką poprawę: rozumowanie wizualne. Chociaż ogólne wskaźniki sukcesu pozostały stosunkowo niskie, istniały dowody na ewolucję ich wydajności.
To, co naprawdę się wyróżnia, to nieprzewidywalność tej technologii. Biegłość GPT-4 w generowaniu kodu wykazała spadek w tworzeniu kodu bezpośrednio wykonywalnego. Na nowo przywołuje to obawy dla branż polegających na tych modelach. Niespójności mogą siać spustoszenie w większych ekosystemach oprogramowania.
Nie można pozwolić sobie na samozadowolenie z ChatGPT
Kluczowym wnioskiem z tej dogłębnej analizy nie są wahania wydajności GPT-4 i GPT-3,5. Najważniejsza pozostaje lekcja na temat nietrwałości wydajności sztucznej inteligencji.
Wraz z szybkim postępem technologicznym istnieje ukryte założenie, że nowsze modele przewyższą swoich poprzedników. Niniejsze badanie podważa to założenie.
Przesłaniem dla firm i deweloperów mocno zaangażowanych w ChatGPT jest regularne monitorowanie i ocena tych modeli. Ponieważ technologia AI kontynuuje swój rozwój, badanie to jest wyraźnym przypomnieniem, że postęp nie jest liniowy.
Założenie, że nowsze jest zawsze lepsze, może być nadmiernym uproszczeniem, z którym społeczność technologiczna musi się zmierzyć. Nieobliczalne zachowanie GPT-4 i GPT-3,5 w ciągu kilku miesięcy zwiększa pilną potrzebę zachowania czujności, oceny i ponownej kalibracji. Ponadto zapewnia, że technologia służy zamierzonemu celowi z oczekiwaną wydajnością.
Wyjaśnienie
Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.