Zobacz więcej

BeInCrypto pomogło zwiększyć atrakcyjność AI i ChatGPT

2 mins
Autor Josh Adams
Tłumaczenie Jakub Dziadkowiec
Dołącz do Naszej Społeczności na Telegramie

W SKRÓCIE

  • BeInCrypto zostało włączone do zbioru danych C4 służącego do szkolenia sztucznej inteligencji (AI).
  • Modele językowe i te używane przez ChatGPT " skanują" Internet, aby naśladować ludzką składnię.
  • CommonCrawl obejmuje godne zaufania strony internetowe oraz materiały nieobjęte licencją i prawami autorskimi.
  • promo

BeInCrypto został włączony do zbioru danych w celu szkolenia i ulepszania narzędzi sztucznej inteligencji (AI), takich jak ChatGPT.

BeInCrypto dołączyło do ogromnego zestawu danych do szkolenia AI o nazwie C4. The Washington Post i Allen Institute for AI niedawno badali zbiór danych C4 Google’a, aby ustalić, jakie witryny zasilały narzędzia AI takie jak ChatGPT.

Wiele dużych modeli językowych wykorzystało C4 (Colossal Clean Crawled Corpus) jako narzędzie instruktażowe. Jednak ChatGPT firmy Open AI nie korzysta z tego zbioru danych.

Pomoc dla AI i ChatGPT w odtwarzaniu ludzkiej mowy

Duże modele językowe, takie jak C4 i ten zastosowany przez ChatGPT, ” skanują” Internet w poszukiwaniu treści dla rozwoju swojego modelu. Ogromny zbiór danych pozwala SI naśladować ludzką mowę.

The Washington Post posortował strony internetowe C4 przy użyciu danych z firmy analitycznej SimilarWeb. Następnie, uszeregowali 10 milionów stron internetowych według liczby “tokenów”, które wniosły.

Tokeny odnoszą się do krótkich fragmentów tekstu wykorzystywanych do nadania sensu nieustrukturyzowanym danym, zwykle składających się ze słowa lub frazy.

BeInCrypto wykorzystane przez ChatGPT
Kategorie stron przez AI / Źródło: Washington Post

Trzema największymi autorami zbioru danych były patents.google.com, wikipedia.org i scribd.com, biblioteka cyfrowa oparta na subskrypcji. Natomiast w pierwszej dziesiątce portali informacyjnych znalazły się: Guardian, New York Times, Forbes, LA Times i Huffington Post.

Dane dla C4 zostały po raz pierwszy zeskanowane w 2019 roku

Inne strony internetowe, które mocno się wyróżniły to Instructables, platforma internetowa do dzielenia się instrukcjami DIY i how-tos. Badacze znaleźli również co najmniej 27 innych stron zidentyfikowanych przez rząd USA jako rynki piractwa i podróbek.

C4 powstał jako pojedynczy skaner stworzony przez organizację non-profit CommonCrawl w 2019 roku. Mówili Washington Post, że nie organizacja stara się unikać licencjonowanych lub chronionych prawem autorskim materiałów. Jednak stara się priorytetowo traktować wysokiej jakości i godne zaufania strony internetowe, w których dane są bezpłatne i gotowe do wykorzystania w celu analizy.

Ponieważ technologia AI nadal zagraża różnym branżom, skanowanie treści dla dużych modeli językowych staje się coraz bardziej kontrowersyjne. Szczególnie dotyczy to sektorów najbardziej zagrożonych przez AI.

Firmy szkolące AI nie rekompensują twórcom treści za wykorzystanie ich pracy. Co więcej, artyści niedawno zaatakowali narzędzia do tworzenia obrazów AI – Midjourney i Stable Diffusion – skłądając pozew o naruszenie praw autorskich. Twierdzą, że generatywne narzędzia sztuki AI naruszają prawo autorskie, ponieważ skanują prace artystów bez ich zgody.

Najlepsze platformy dla krypto inwestorów | Lipiec 2024
Najlepsze platformy dla krypto inwestorów | Lipiec 2024
Wirex App Wirex App Wypróbuj
Bitpanda Bitpanda Wypróbuj
YouHodler YouHodler Wypróbuj
Najlepsze platformy dla krypto inwestorów | Lipiec 2024

Trusted

Wyjaśnienie

Wszystkie informacje zawarte na naszej stronie internetowej są publikowane w dobrej wierze i wyłącznie w ogólnych celach informacyjnych. Wszelkie działania podejmowane przez czytelnika w związku z informacjami znajdującymi się na naszej stronie internetowej odbywają się wyłącznie na jego własne ryzyko.

Zbudowane przez Ari10. Możliwość płatności BLIK
Zbudowane przez Ari10. Możliwość płatności BLIK
Jakub-Dziadkowiec.png
Jakub Dziadkowiec
Redaktor naczelny BeInCrypto Polska. Profesor na międzynarodowym uniwersytecie w Lublinie. Autor 4 książek i ponad 20 artykułów naukowych. Od wielu lat pisze analizy, felietony i newsy z branży kryptowalut. Uczestnik i prelegent licznych konferencji oraz eventów sektora Web3 i blockchain w Polsce i Europie. Entuzjasta analizy on-chain, wojownik Bitcoina oraz wielki zwolennik idei decentralizacji. Duc in altum!
READ FULL BIO
Sponsorowane
Sponsorowane