W SKRÓCIE

  • Badania przeprowadzone przez Stanford i UC Berkeley ujawniły nierówną wydajność ChatGPT w wersjach GPT-3,5 i GPT-4 w ciągu zaledwie trzech miesięcy.
  • Podczas gdy dokładność GPT-4 w identyfikowaniu liczb pierwszych dramatycznie spadła, GPT-3,5 wykazał znaczną poprawę.
  • Pomimo szybkich aktualizacji, nowsze modele sztucznej inteligencji nie zawsze przewyższają starsze modele, podkreślając potrzebę ciągłego monitorowania.
  • promo

Ostatnie badania wywołały ciekawą dyskusję na temat biegłości ChatGPT, zwłaszcza wersji GPT-3,5 i GPT-4. Te dwie iteracje zdominowały rynek jako duże usługi modeli językowych.

Jednak zaobserwowano kłopotliwą mieszankę wzlotów i upadków wydajności w okresie od marca do czerwca 2023 r. Co więcej niektórzy zastanawiają się, czy ChatGPT nie staje się coraz głupszy.

Aktualizacje ChatGPT nie ustępują starszym wersjom

Uznani naukowcy z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley przeanalizowali biegłość ChatGPT w różnych zadaniach. Centralnym punktem tej kompleksowej oceny była dramatyczna niespójność zaobserwowana w jego wydajności na przestrzeni trzech miesięcy.

Niezgodność ta dziwi nie tylko ekspertów. Podkreśla ona naturę technologii sztucznej inteligecji (AI) i konieczność konsekwentnego monitorowania jej jakości. W raporcie czytamy:

“Nasze odkrycia pokazują, że zachowanie ‘tej samej’ usługi LLM [dużego modelu językowego] może się znacznie zmienić w stosunkowo krótkim czasie.”

Wydajność AI
Wydajność różnych wersji ChatGPT / Źródło: arXiv

Zagłębiając się w szczegóły, umiejętności rozwiązywania problemów matematycznych w GPT-4 wykazały szokujący spadek biegłości w identyfikowaniu liczb pierwszych.

Rzeczywiście, wskaźniki dokładności spadły z wysokiego poziomu 97,6% w marcu do alarmujących 2,4% w czerwcu. Dla kontrastu, jego poprzednik, GPT-3,5, wykazał znaczną poprawę w tym samym okresie, wzrastając z 7,4% do 86,8%.

Wyraźne kontrasty dezorientują ekspertów branżowych. Przecież można by oczekiwać, że nowsze wersje będą lepsze od swoich poprzedników. Rodzi to obawy o to, w jaki sposób “aktualizacje” i “ulepszenia” naprawdę wpływają na możliwości sztucznej inteligencji.

Brak szczegółowych wyjaśnień i generowania kodu

Gdy zapytano o te drażliwe kwestie, badania ukazały inny frapujący aspekt. GPT-4 wykazało znaczną redukcję bezpośrednich odpowiedzi na newralgiczne kwestie w okresie od marca do czerwca. Wskazuje to na wzmocnienie warstwy bezpieczeństwa.

Zauważalne było jednak skrócenie wygenerowanych wyjaśnień w przypadku odmowy udzielenia odpowiedzi. Wywołało to spekulacje na temat tego, czy model nie błądzi po stronie ostrożności. Z kolei to może mieć negatywny wpływ na zaangażowanie użytkowników i przejrzystość.

ChatGPT - porównanie wersji
ChatGPT 3,5 vs ChatGPT 4,0 / Źródło: arXiv

Jednak nie wszystko było takie ponure. Badanie wskazało kluczowy obszar, w którym GPT-4 i do pewnego stopnia GPT-3,5 wykazały niewielką poprawę: rozumowanie wizualne. Chociaż ogólne wskaźniki sukcesu pozostały stosunkowo niskie, istniały dowody na ewolucję ich wydajności.

To, co naprawdę się wyróżnia, to nieprzewidywalność tej technologii. Biegłość GPT-4 w generowaniu kodu wykazała spadek w tworzeniu kodu bezpośrednio wykonywalnego. Na nowo przywołuje to obawy dla branż polegających na tych modelach. Niespójności mogą siać spustoszenie w większych ekosystemach oprogramowania.

Nie można pozwolić sobie na samozadowolenie z ChatGPT

Kluczowym wnioskiem z tej dogłębnej analizy nie są wahania wydajności GPT-4 i GPT-3,5. Najważniejsza pozostaje lekcja na temat nietrwałości wydajności sztucznej inteligencji.

Wraz z szybkim postępem technologicznym istnieje ukryte założenie, że nowsze modele przewyższą swoich poprzedników. Niniejsze badanie podważa to założenie.

Przesłaniem dla firm i deweloperów mocno zaangażowanych w ChatGPT jest regularne monitorowanie i ocena tych modeli. Ponieważ technologia AI kontynuuje swój rozwój, badanie to jest wyraźnym przypomnieniem, że postęp nie jest liniowy.

Użycie ChatGPT na świecie
Firmy na świecie, które używają ChatGPT / Źródło: Statista

Założenie, że nowsze jest zawsze lepsze, może być nadmiernym uproszczeniem, z którym społeczność technologiczna musi się zmierzyć. Nieobliczalne zachowanie GPT-4 i GPT-3,5 w ciągu kilku miesięcy zwiększa pilną potrzebę zachowania czujności, oceny i ponownej kalibracji. Ponadto zapewnia, że technologia służy zamierzonemu celowi z oczekiwaną wydajnością.

Najlepsze platformy dla krypto inwestorów
eToro eToro Wypróbuj
Coinrule Coinrule Wypróbujo
Najlepsze platformy dla krypto inwestorów
eToro eToro Wypróbuj
YouHodler YouHodler Wypróbuj
Coinrule Coinrule Wypróbujo
Najlepsze platformy dla krypto inwestorów
eToro eToro
YouHodler YouHodler
Margex Margex
Coinrule Coinrule
MEXC MEXC

Wyjaśnienie

Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.

Zbudowane przez Ari10. Możliwość płatności BLIK
Zbudowane przez Ari10. Możliwość płatności BLIK
Jakub-Dziadkowiec.png
Redaktor naczelny BeInCrypto Polska. Profesor na międzynarodowym uniwersytecie w Lublinie. Autor 4 książek i ponad 20 artykułów naukowych. Od wielu lat pisze analizy, felietony i newsy z branży kryptowalut. Uczestnik i prelegent licznych konferencji oraz eventów sektora Web3 i blockchain w Polsce i Europie. Entuzjasta analizy on-chain, wojownik Bitcoina oraz wielki zwolennik idei decentralizacji. Duc in altum!
Przeczytaj całą biografię
Sponsorowane
Sponsorowane