W SKRÓCIE

  • Badania przeprowadzone przez Stanford i UC Berkeley ujawniły nierówną wydajność ChatGPT w wersjach GPT-3,5 i GPT-4 w ciągu zaledwie trzech miesięcy.
  • Podczas gdy dokładność GPT-4 w identyfikowaniu liczb pierwszych dramatycznie spadła, GPT-3,5 wykazał znaczną poprawę.
  • Pomimo szybkich aktualizacji, nowsze modele sztucznej inteligencji nie zawsze przewyższają starsze modele, podkreślając potrzebę ciągłego monitorowania.
  • promo

Ostatnie badania wywołały ciekawą dyskusję na temat biegłości ChatGPT, zwłaszcza wersji GPT-3,5 i GPT-4. Te dwie iteracje zdominowały rynek jako duże usługi modeli językowych.

Jednak zaobserwowano kłopotliwą mieszankę wzlotów i upadków wydajności w okresie od marca do czerwca 2023 r. Co więcej niektórzy zastanawiają się, czy ChatGPT nie staje się coraz głupszy.

Aktualizacje ChatGPT nie ustępują starszym wersjom

Uznani naukowcy z Uniwersytetu Stanforda i Uniwersytetu Kalifornijskiego w Berkeley przeanalizowali biegłość ChatGPT w różnych zadaniach. Centralnym punktem tej kompleksowej oceny była dramatyczna niespójność zaobserwowana w jego wydajności na przestrzeni trzech miesięcy.

Niezgodność ta dziwi nie tylko ekspertów. Podkreśla ona naturę technologii sztucznej inteligecji (AI) i konieczność konsekwentnego monitorowania jej jakości. W raporcie czytamy:

“Nasze odkrycia pokazują, że zachowanie ‘tej samej’ usługi LLM [dużego modelu językowego] może się znacznie zmienić w stosunkowo krótkim czasie.”

Wydajność AI
Wydajność różnych wersji ChatGPT / Źródło: arXiv

Zagłębiając się w szczegóły, umiejętności rozwiązywania problemów matematycznych w GPT-4 wykazały szokujący spadek biegłości w identyfikowaniu liczb pierwszych.

Rzeczywiście, wskaźniki dokładności spadły z wysokiego poziomu 97,6% w marcu do alarmujących 2,4% w czerwcu. Dla kontrastu, jego poprzednik, GPT-3,5, wykazał znaczną poprawę w tym samym okresie, wzrastając z 7,4% do 86,8%.

Wyraźne kontrasty dezorientują ekspertów branżowych. Przecież można by oczekiwać, że nowsze wersje będą lepsze od swoich poprzedników. Rodzi to obawy o to, w jaki sposób “aktualizacje” i “ulepszenia” naprawdę wpływają na możliwości sztucznej inteligencji.

Brak szczegółowych wyjaśnień i generowania kodu

Gdy zapytano o te drażliwe kwestie, badania ukazały inny frapujący aspekt. GPT-4 wykazało znaczną redukcję bezpośrednich odpowiedzi na newralgiczne kwestie w okresie od marca do czerwca. Wskazuje to na wzmocnienie warstwy bezpieczeństwa.

Zauważalne było jednak skrócenie wygenerowanych wyjaśnień w przypadku odmowy udzielenia odpowiedzi. Wywołało to spekulacje na temat tego, czy model nie błądzi po stronie ostrożności. Z kolei to może mieć negatywny wpływ na zaangażowanie użytkowników i przejrzystość.

ChatGPT - porównanie wersji
ChatGPT 3,5 vs ChatGPT 4,0 / Źródło: arXiv

Jednak nie wszystko było takie ponure. Badanie wskazało kluczowy obszar, w którym GPT-4 i do pewnego stopnia GPT-3,5 wykazały niewielką poprawę: rozumowanie wizualne. Chociaż ogólne wskaźniki sukcesu pozostały stosunkowo niskie, istniały dowody na ewolucję ich wydajności.

To, co naprawdę się wyróżnia, to nieprzewidywalność tej technologii. Biegłość GPT-4 w generowaniu kodu wykazała spadek w tworzeniu kodu bezpośrednio wykonywalnego. Na nowo przywołuje to obawy dla branż polegających na tych modelach. Niespójności mogą siać spustoszenie w większych ekosystemach oprogramowania.

Nie można pozwolić sobie na samozadowolenie z ChatGPT

Kluczowym wnioskiem z tej dogłębnej analizy nie są wahania wydajności GPT-4 i GPT-3,5. Najważniejsza pozostaje lekcja na temat nietrwałości wydajności sztucznej inteligencji.

Wraz z szybkim postępem technologicznym istnieje ukryte założenie, że nowsze modele przewyższą swoich poprzedników. Niniejsze badanie podważa to założenie.

Przesłaniem dla firm i deweloperów mocno zaangażowanych w ChatGPT jest regularne monitorowanie i ocena tych modeli. Ponieważ technologia AI kontynuuje swój rozwój, badanie to jest wyraźnym przypomnieniem, że postęp nie jest liniowy.

Użycie ChatGPT na świecie
Firmy na świecie, które używają ChatGPT / Źródło: Statista

Założenie, że nowsze jest zawsze lepsze, może być nadmiernym uproszczeniem, z którym społeczność technologiczna musi się zmierzyć. Nieobliczalne zachowanie GPT-4 i GPT-3,5 w ciągu kilku miesięcy zwiększa pilną potrzebę zachowania czujności, oceny i ponownej kalibracji. Ponadto zapewnia, że technologia służy zamierzonemu celowi z oczekiwaną wydajnością.

🎄Najlepsze platformy dla krypto inwestorów | Grudzień 2024
🎄Najlepsze platformy dla krypto inwestorów | Grudzień 2024
🎄Najlepsze platformy dla krypto inwestorów | Grudzień 2024

Wyjaśnienie

Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.

Zbudowane przez Ari10. Możliwość płatności BLIK
Zbudowane przez Ari10. Możliwość płatności BLIK
Jakub-Dziadkowiec.png
Jakub Dziadkowiec
Redaktor naczelny BeInCrypto Polska. Profesor na międzynarodowym uniwersytecie w Lublinie. Autor 4 książek i ponad 20 artykułów naukowych. Od wielu lat pisze analizy, felietony i newsy z branży kryptowalut. Uczestnik i prelegent licznych konferencji oraz eventów sektora Web3 i blockchain w Polsce i Europie. Entuzjasta analizy on-chain, wojownik Bitcoina oraz wielki zwolennik idei decentralizacji. Duc in altum!
READ FULL BIO
Sponsorowane
Sponsorowane