Stiri

După OpenAI și NVIDIA și-a antrenat AI-ul folosindu-se fără permisiune de clipuri de pe YouTube și Netflix

Scris de Claudiu Râpan | 6 august, 2024

În cel mai recent exemplu al unui lucru care se întâmplă din ce în ce mai des în industria tech, NVIDIA pare să fi colectat mari cantități de conținut protejat prin drepturi de autor în scopul antrenării AI-ului său. Luni, 404 Media a scris despre faptul că NVIDIA, companie evaluată la 2,4 trilioane de dolari, a cerut angajaților să descarce videoclipuri de pe YouTube, Netflix și alte baze de date pentru a dezvolta proiecte comerciale de AI.

NVIDIA a apărat, însă, această practică într-un mail trimis către publicația Engadget. Un purtător de cuvânt al companiei a spus că cercetarea lor este „în deplină conformitate cu litera și spiritul legii dreptului de autor”, susținând că legile de proprietate intelectuală protejează expresiile exacte „dar nu și faptele, ideile, datele sau informațiile”. Compania a echivalat această practică controversată cu dreptul unei persoane de a „învăța fapte, idei, date sau informații dintr-o altă sursă și de a le folosi pentru a crea propria lor expresie”.

YouTube nu pare să fie de acord. Purtătorul de cuvânt Jack Malon a indicat spre un articol Bloomberg din aprilie, citându-l pe CEO-ul Neal Mohan care a spus că folosirea YouTube-ului pentru a antrena modele AI ar fi o „încălcare clară” a termenilor săi. „Comentariul nostru anterior rămâne valabil”, a scris managerul de comunicare a politicilor YouTube.

OpenAI a fost prima companie „prinsă”

Acea declarație a lui Mohan din aprilie a fost un răspuns la faptul că OpenAI și-a antrenat generatorul text-to-video Sora cu ajutorul clipurilor de pe YouTube fără să aibă nici un fel de permisiune. De altfel, luna trecută, o altă știre care a apărut în cele mai importante publicații de peste Ocean a arătat că startup-ul Runway AI a procedat exact la fel.

Angajații NVIDIA care au exprimat îngrijorări din punct de vedere etic și legal în legătură cu această practică ar fi fost informați de către managerii lor că procedura de antrenare a AI-ului ar fi fost deja aprobată de către cei mai importanți oameni din companie. „Aceasta este o decizie luată la nivel executiv”, a răspuns Ming-Yu Liu, vicepreședinte de cercetare la NVIDIA. „Avem aprobare generală pentru toate datele folosite”. În schimb, alți executivi din companie au descris presupusa colectare a datelor ca pe o „problemă legală deschisă” pe care o vor aborda ulterior.

S-au folosit și propriile baze de date cu imagini din jocuri video

În plus față de clipurile de pe YouTube și Netflix, NVIDIA a spus că și-a instruit angajații să antreneze AI-ul cu ajutorul bazei de date de trailere pentru filme MovieNet, cu ajutorul bibliotecii interne cu imagini din jocurile video dar și cu ajutorul a seturi de date video de pe GitHub.

Unele dintre datele pe care NVIDIA le-a folosit erau marcate ca fiind eligibile doar pentru utilizare academică (adică necomercială). HD-VG-130M, o bibliotecă de 130 milioane de clipuri YouTube, include o licență de utilizare care specifică că este destinată doar cercetării academice.

Pentru a evita detectarea de către YouTube, NVIDIA a mai spus că a descărcat conținutul folosind mașini virtuale (VM) cu adrese IP dinamice, pentru a evita interdicțiile.