BeInCrypto został włączony do zbioru danych w celu szkolenia i ulepszania narzędzi sztucznej inteligencji (AI), takich jak ChatGPT.
BeInCrypto dołączyło do ogromnego zestawu danych do szkolenia AI o nazwie C4. The Washington Post i Allen Institute for AI niedawno badali zbiór danych C4 Google’a, aby ustalić, jakie witryny zasilały narzędzia AI takie jak ChatGPT.
Wiele dużych modeli językowych wykorzystało C4 (Colossal Clean Crawled Corpus) jako narzędzie instruktażowe. Jednak ChatGPT firmy Open AI nie korzysta z tego zbioru danych.
Pomoc dla AI i ChatGPT w odtwarzaniu ludzkiej mowy
Duże modele językowe, takie jak C4 i ten zastosowany przez ChatGPT, ” skanują” Internet w poszukiwaniu treści dla rozwoju swojego modelu. Ogromny zbiór danych pozwala SI naśladować ludzką mowę.
The Washington Post posortował strony internetowe C4 przy użyciu danych z firmy analitycznej SimilarWeb. Następnie, uszeregowali 10 milionów stron internetowych według liczby “tokenów”, które wniosły.
Tokeny odnoszą się do krótkich fragmentów tekstu wykorzystywanych do nadania sensu nieustrukturyzowanym danym, zwykle składających się ze słowa lub frazy.
Trzema największymi autorami zbioru danych były patents.google.com, wikipedia.org i scribd.com, biblioteka cyfrowa oparta na subskrypcji. Natomiast w pierwszej dziesiątce portali informacyjnych znalazły się: Guardian, New York Times, Forbes, LA Times i Huffington Post.
Dane dla C4 zostały po raz pierwszy zeskanowane w 2019 roku
Inne strony internetowe, które mocno się wyróżniły to Instructables, platforma internetowa do dzielenia się instrukcjami DIY i how-tos. Badacze znaleźli również co najmniej 27 innych stron zidentyfikowanych przez rząd USA jako rynki piractwa i podróbek.
C4 powstał jako pojedynczy skaner stworzony przez organizację non-profit CommonCrawl w 2019 roku. Mówili Washington Post, że nie organizacja stara się unikać licencjonowanych lub chronionych prawem autorskim materiałów. Jednak stara się priorytetowo traktować wysokiej jakości i godne zaufania strony internetowe, w których dane są bezpłatne i gotowe do wykorzystania w celu analizy.
Ponieważ technologia AI nadal zagraża różnym branżom, skanowanie treści dla dużych modeli językowych staje się coraz bardziej kontrowersyjne. Szczególnie dotyczy to sektorów najbardziej zagrożonych przez AI.
Firmy szkolące AI nie rekompensują twórcom treści za wykorzystanie ich pracy. Co więcej, artyści niedawno zaatakowali narzędzia do tworzenia obrazów AI – Midjourney i Stable Diffusion – skłądając pozew o naruszenie praw autorskich. Twierdzą, że generatywne narzędzia sztuki AI naruszają prawo autorskie, ponieważ skanują prace artystów bez ich zgody.
Wyjaśnienie
Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.