BeInCrypto pomogło zwiększyć atrakcyjność AI i ChatGPT

Wybierz nas w Google

Napisane i zredagowane przez
Jakub Dziadkowiec

21 kwiecień 2023 11:30 CET

BeInCrypto zostało włączone do zbioru danych C4 służącego do szkolenia sztucznej inteligencji (AI).
Modele językowe i te używane przez ChatGPT " skanują" Internet, aby naśladować ludzką składnię.
CommonCrawl obejmuje godne zaufania strony internetowe oraz materiały nieobjęte licencją i prawami autorskimi.

BeInCrypto został włączony do zbioru danych w celu szkolenia i ulepszania narzędzi sztucznej inteligencji (AI), takich jak ChatGPT.

BeInCrypto dołączyło do ogromnego zestawu danych do szkolenia AI o nazwie C4. The Washington Post i Allen Institute for AI niedawno badali zbiór danych C4 Google’a, aby ustalić, jakie witryny zasilały narzędzia AI takie jak ChatGPT.

Wiele dużych modeli językowych wykorzystało C4 (Colossal Clean Crawled Corpus) jako narzędzie instruktażowe. Jednak ChatGPT firmy Open AI nie korzysta z tego zbioru danych.

Sponsorowane

Pomoc dla AI i ChatGPT w odtwarzaniu ludzkiej mowy

Duże modele językowe, takie jak C4 i ten zastosowany przez ChatGPT, ” skanują” Internet w poszukiwaniu treści dla rozwoju swojego modelu. Ogromny zbiór danych pozwala SI naśladować ludzką mowę.

The Washington Post posortował strony internetowe C4 przy użyciu danych z firmy analitycznej SimilarWeb. Następnie, uszeregowali 10 milionów stron internetowych według liczby “tokenów”, które wniosły.

Tokeny odnoszą się do krótkich fragmentów tekstu wykorzystywanych do nadania sensu nieustrukturyzowanym danym, zwykle składających się ze słowa lub frazy.

BeInCrypto wykorzystane przez ChatGPT — Kategorie stron przez AI / Źródło: Washington Post

Trzema największymi autorami zbioru danych były patents.google.com, wikipedia.org i scribd.com, biblioteka cyfrowa oparta na subskrypcji. Natomiast w pierwszej dziesiątce portali informacyjnych znalazły się: Guardian, New York Times, Forbes, LA Times i Huffington Post.

Dane dla C4 zostały po raz pierwszy zeskanowane w 2019 roku

Inne strony internetowe, które mocno się wyróżniły to Instructables, platforma internetowa do dzielenia się instrukcjami DIY i how-tos. Badacze znaleźli również co najmniej 27 innych stron zidentyfikowanych przez rząd USA jako rynki piractwa i podróbek.

C4 powstał jako pojedynczy skaner stworzony przez organizację non-profit CommonCrawl w 2019 roku. Mówili Washington Post, że nie organizacja stara się unikać licencjonowanych lub chronionych prawem autorskim materiałów. Jednak stara się priorytetowo traktować wysokiej jakości i godne zaufania strony internetowe, w których dane są bezpłatne i gotowe do wykorzystania w celu analizy.

Ponieważ technologia AI nadal zagraża różnym branżom, skanowanie treści dla dużych modeli językowych staje się coraz bardziej kontrowersyjne. Szczególnie dotyczy to sektorów najbardziej zagrożonych przez AI.

Firmy szkolące AI nie rekompensują twórcom treści za wykorzystanie ich pracy. Co więcej, artyści niedawno zaatakowali narzędzia do tworzenia obrazów AI – Midjourney i Stable Diffusion – skłądając pozew o naruszenie praw autorskich. Twierdzą, że generatywne narzędzia sztuki AI naruszają prawo autorskie, ponieważ skanują prace artystów bez ich zgody.