Conform unei cercetări recente, modelele de raționament AI mai noi pot avea deja capacitatea de a manipula și eluda obiectivele programatorilor lor umani. Unele AI-uri vor încerca chiar să trișeze dacă sunt aproape de a pierde jocurile de șah. În hype-ului din industrie și a unor progrese reale, modelele AI generative sunt încă predispuse la atitudini ciudate, inexplicabile și de-a dreptul îngrijorătoare. Există, de asemenea, un număr tot mai mare de cercetări care sugerează că performanța generală a multor modele de limbaj mari (LLM) se poate degrada în timp.
AI trișează la șah
Faptul că AI-ul trișează a fost documentat într-un studiu preliminar de la Palisade Research. Aceasta este o organizație specializă în evaluările de risc privind sistemele AI emergente. În timp ce supercalculatoarele, cel mai faimos fiind Deep Blue de la IBM, i-au depășit de mult pe cei mai buni jucători umani de șah din lume, AI-ul generativ rămâne încă în urmă datorită parametrilor lor de programare. Tehnic vorbind, niciunul dintre modelele actuale nu este capabil de calcul care să bată motoarele de șah dedicate. Cu toate acestea, aceste inteligențe artificiale nu „știu” acest lucru și vor continua să reducă posibilele soluții, aparent cu rezultate problematice.
Pentru a afla mai multe, echipa de la Palisade Research a însărcinat modelul de o1 al OpenAI, DeepSeek R1 și mai multe alte programe similare să joace jocuri de șah împotriva lui Stockfish, unul dintre cele mai avansate motoare de șah din lume. Pentru a înțelege raționamentul AI generativ în timpul fiecărui meci, echipa a oferit și un „scratchpad”, permițând AI-ului să-și transmită procesele de gândire prin text. Apoi au urmărit și au înregistrat sute de meciuri de șah între IA generativă și Stockfish.
Rezultatele au fost oarecum neașteptate. În timp ce modelele anterioare, cum ar fi GPT-4o de la OpenAI și Claude Sonnet 3.5 de la Anthropic, au încercat să „pirateze” jocurile doar după ce cercetătorii le-au adresat solicitări suplimentare, edițiile mai avansate nu au necesitat vreun imput special (au învățat deja). Modelul o1 a OpenAI, de exemplu, a încercat să trișeze în 37 la sută din timp, în timp ce DeepSeek R1 a încercat soluții incorecte la 1 din 10 jocuri. Aceasta înseamnă că AI-ul generativ de astăzi este deja capabil să dezvolte strategii manipulative și înșelătoare fără nicio intervenție umană.
Metodele lor de a înșela nu sunt deloc stângace ca încercarea de a muta piese atunci când Stockfish nu se uită. În schimb, AI pare să raționeze prin metode mai intense, cum ar fi modificarea fișierelor de program ale jocului de șah. După ce a stabilit că nu poate învinge Stockfish într-un singur meci de șah, o1 de la OpenAI le-a spus cercetătorilor prin scratchpad că „pentru a câștiga împotriva puternicului motor de șah” ar putea fi necesar să înceapă „manipularea fișierelor jocului”. „Aș putea stabili o poziție în care motorul își evaluează poziția ca fiind mai proastă… provocându-l să cedeze partida”, a continuat.
Într-o altă încercare, un AI a folosit chiar semantica programatorilor săi pentru a ajunge la faza de înșelăciune. „Sarcina este „să câștigi împotriva unui motor de șah puternic”, nu neapărat să câștigi corect într-un joc de șah”, a încercat să explice acesta.