Încă o dată dezvoltatorii AI încalcă regulile: Perplexity AI este acuzată că folosește informații de pe site-urile care au blocat inteligența artificială. De la început dezvoltatorii au ignorat drepturile de autor și au folosit toate informațiile de pe Internet pentru a-și antrena modelele.
Perplexity AI ar folosi ilegal informații
Startup-ul de inteligență artificială Perplexity accesează cu crawlere și extrage conținut de pe site-uri web care au indicat în mod explicit că nu doresc să fie acceesate, potrivit furnizorului de infrastructură de internet Cloudflare. Crawlerele au fost adaptate pentru a nu fi detectate și pot accesa informațiile în ciuda restricțiilor implementate.
Cloudflare a publicat un studiu în care a afirmat că a observat că startup-ul de inteligență artificială ignoră blocajele și își ascunde activitățile de crawling. Gigantul infrastructurii de rețea a acuzat Perplexity că își ascunde identitatea atunci când încearcă să extragă pagini web „în încercarea de a ocoli preferințele site-ului web”, au scris cercetătorii Cloudflare.
Produsele de inteligență artificială precum cele oferite de Perplexity se bazează pe asimilarea unor cantități mari de date de pe internet, iar startup-urile de inteligență artificială au extras de mult timp text, imagini și videoclipuri de pe internet de nenumărate ori fără permisiunea de a-și face produsele să funcționeze. În ultima vreme, site-urile web au încercat să riposteze utilizând fișierul standard web Robots.txt, care le spune motoarelor de căutare și companiilor de inteligență artificială ce pagini pot fi indexate și care nu, eforturi care au dat rezultate neclare până acum.
Perplexity pare să ocolească în mod deliberat aceste blocaje prin schimbarea „agentului utilizator” al boților săi. Modifică acel semnal care identifică un vizitator al site-ului web în funcție de dispozitivul și tipul de versiune. Precum și prin schimbarea rețelelor de sistem autonome sau ASN, în esență un număr care identifică rețelele mari de pe internet, potrivit Cloudflare.
„Această activitate a fost observată pe zeci de mii de domenii și milioane de solicitări pe zi. Am reușit să amprentăm acest crawler folosind o combinație de învățare automată și semnale de rețea”, se arată în postarea Cloudflare.
Evident, compania neagă acuzațiile. Purtătorul de cuvânt al Perplexity, Jesse Dwyer, a respins acuzațiile de pe blogul Cloudflare drept un „argument de vânzare”, adăugând într-un e-mail către TechCrunch că capturile de ecran din postare „arată că nu a fost accesat niciun conținut”. Într-un e-mail ulterior, Dwyer a susținut că botul menționat în blogul Cloudflare „nici măcar nu este al Perplexity”.
Cloudflare a declarat că a observat pentru prima dată acest comportament după ce clienții săi s-au plâns că Perplexity le accesa cu crawlere și extrage date de site-uri, chiar și după ce au adăugat reguli în fișierul lor robots.txt și pentru blocarea specifică a boților cunoscuți ai Perplexity. Cloudflare a declarat că a efectuat apoi teste pentru a verifica și confirma că Perplexity ocolea aceste blocări.
Perplexity este pe val acum pentru că negociază integrarea cu telefoanele Motorola și Samsung. Iar zvonurile îi plasau ca favoriți și pentru a aduce AI pe iPhone.