OpenAI prepisuje viac ako milión hodín videí z YouTube

Dôvodom je zlepšovanie LLM (veľké jazykové modely), pričom Google sa zapojil do rovnakej praxe.

Jedným z mnohých kontroverzných prvkov okolo generatívnej umelej inteligencie a tréningových údajov používaných na vytváranie veľkých jazykových modelov (LLM) je možnosť porušovania autorských práv. Táto téma je opäť v centre pozornosti po správe, že OpenAI prepisovala viac ako milión hodín videí z YouTube na účely trénovania GPT-4. Prečo majiteľ YouTube (teda Google), nenamietal? Pretože robili to isté.

S cieľom získať prístup k renomovanejším textom v anglickom jazyku na internete v roku 2021 vytvorili výskumníci z OpenAI nástroj na rozpoznávanie reči s názvom Whisper, informuje NYT. Bol navrhnutý na prepisovanie zvuku z videí na YouTube, čím spoločnosť získala zásobu údajov na trénovanie svojich LLM. OpenAI údajne vedela, že získavanie údajov zo služby YouTube je právne sporné, ale aj tak to urobila v domnienke, že takýto postup možno považovať za spravodlivé použitie.

Denník píše, že prezident OpenAI Greg Brockman sa osobne podieľal na zhromažďovaní videí, ktoré boli prepisované. Dá sa predpokladať, že Google by z konania OpenAI nebola nadšená, ale bolo by to pokrytecké vzhľadom na to, že spoločnosť tiež prepisovala videá z YouTube pre svoje modely umelej inteligencie, čím potenciálne porušovala autorské práva tvorcov.

Generálny riaditeľ YouTube Neal Mohan minulý týždeň v rozhovore pre agentúru Bloomberg uviedol, že podmienky služby platformy nepovoľujú neoprávnené prepisy alebo sťahovanie obsahu videí. Na otázku o prepisovaní OpenAI odpovedal: „Videl som správy, že sa to mohlo alebo nemuselo použiť. Ja sám nemám žiadne informácie.“

Hovorca Googlu Matt Bryant zopakoval pravidlá ToS a dodal, že spoločnosť prijíma „technické a právne opatrenia“, aby zabránila takýmto neoprávneným praktikám, „keď na to máme jasný právny alebo technický základ“. Google uvádza, že jej modely umelej inteligencie sú vyškolené „na určitom obsahu YouTube“, ktorý je povolený na základe dohôd s tvorcami.

NY Times uvádza, že Google odvtedy rozšírila svoje podmienky poskytovania služieb, čím získala viac práv na používanie spotrebiteľských údajov, ako sú verejne dostupné dokumenty a recenzie reštaurácií na Mapách , pre modely AI spoločnosti. Revidované pravidlá boli zverejnené 1. júla v nádeji, že víkend Dňa nezávislosti bude pôsobiť ako rozptýlenie.

Meta údajne zvažovala aj pochybné metódy na získanie väčšieho množstva údajov pre svoje školenia LLM. NYT píše, že materská spoločnosť Facebooku zvažovala zhromažďovanie údajov chránených autorskými právami z internetu, aj keby to znamenalo čeliť súdnym sporom, pretože rokovania s držiteľmi licencií by trvali príliš dlho.

Tisíce organizácií a jednotlivcov sa sťažujú a podávajú žaloby na veľké firmy zaoberajúce sa umelou inteligenciou v súvislosti s používaním ich obsahu bez zaplatenia alebo uznania. NYT žaluje OpenAI a Microsoft za používanie svojich spravodajských článkov chránených autorskými právami. Vo februári OpenAI obvinila publikáciu, že niekomu zaplatila, aby „hackol“ jej slávneho chatbota a ďalšie produkty s cieľom vytvoriť zavádzajúce dôkazy podporujúce tieto tvrdenia.

Zdroj