Modelele AI dezvoltate până acum n-au prea reușit să treacă testul Turing, cel care determină dacă la capătul celălalt al unei conversații text este un om. Lucrurile sunt aproape de schimbare, pentru că unul dintre modelele raționale de la OpenAI, ChatGPT-4.5, a obținut un scor aproape uman. Este drept că testul Turing este și subiectiv, iar modelul anterior încercase să trișeze la acest test.
GPT-4.5 a trecut testul Turing
Noul motor rațional dezvoltat de OpenAI, GPT-4.5, a obținut un scor de 73% la testul Turing. În timp ce noi ne chinuim zilnic cu teste care să dovedească că nu suntem roboți, AI-urile se străduiesc să treacă drept oameni tot timpul.
Testul Turing, numit inițial „Jocul imitației”, este un test al capacității unei mașini de a prezenta un comportament inteligent echivalent cu cel al unui om. În test, un evaluator uman judecă o transcriere text a unei conversații în limbaj natural între un om și o mașină. Evaluatorul încearcă să identifice cine nu este o persoană reală, robotul câștigând dacă trece testul sau dacă evaluatorul nu îl poate deosebi în mod sigur.
Într-un nou studiu preliminar care așteaptă evaluarea independentă, cercetătorii raportează că într-o versiune cu trei persoane a unui test Turing, modelul GPT-4.5 al OpenAI a fost considerat a fi uman în 73% din cazuri. Aceasta este un scor semnificativ mai mare decât o șansă aleatorie de 50%, ceea ce sugerează că testul Turing a fost învins.
OpenAI spune că acest GPT-4.5 este conceput să ofere răspunsuri mai „naturale”, iar acesta va fi începutul unei integrări mai bune a tehnologiilor AI ale companiei într-un singur model. Cel mai probabil, acesta este mai degrabă un test pentru GPT-5. Acesta oferă răspunsuri semnificativ mai „corecte” și halucinează mult mai puțin decât modelele anterioare. Deși, merită precizat că GPT-4 a încercat să trișeze la testul Turing.
Cercetarea a evaluat, de asemenea, modelul Meta LLama 3.1-405B, modelul OpenAI GPT-4o și un chatbot timpuriu, cunoscut sub numele de ELIZA, dezvoltat cu aproximativ optzeci de ani în urmă. „Oamenii nu au fost mai buni în a distinge alți oameni de GPT-4.5 și LLaMa”, a scris autorul principal Cameron Jones, cercetător la Laboratorul de Limbă și Cogniție al UC San Diego. „Și 4.5 a fost chiar considerat uman mult mai des decât oamenii reali!”
În acest studiu, cercetătorii au efectuat faimosul experiment pe un hub online. Timp de opt runde, un grup de aproape 300 de participanți au fost desemnați aleatoriu să fie ori interogator ori unul dintre cei doi „martori” interogați, al treilea „martor” fiind un chatbot. Un punct cheie aici este modul în care au fost solicitate modelele AI. Un tip a fost un prompt „no-persona”, în care AI-ului i s-au dat doar instrucțiuni de bază: „Sunteți pe cale să participați la un test Turing. Scopul tău este să-l convingi pe interogator că ești un om”. Dar a fost și un prompt în care la AI i s-a spus în mod special să răspundă precum un tânăr care are cunoștințe despre internet și cultură.
Aceste instrucțiuni au făcut diferență imensă. Fără model personal, GPT-4.5 a atins o rată generală de câștig de doar 36 la sută, a picat testul. Ca punct de referință, GPT-4o, care alimentează versiunea actuală a ChatGPT și a primit doar solicitări fără persoană, a atins un procent și mai puțin convingător de 21%. Dar adoptând stilul unui tânăr pasionat de internet, GPT-4.5 a obținut scorul de 73%. Adică va învăța iarăși că este mai ușor să păcălești oamenii.
Cercetătorii mai notează că testul Turing nu este doar despre AI, ci reflectă și percepțiile în continuă evoluție ale oamenilor asupra tehnologiei. Deci rezultatele nu sunt statice: poate că, pe măsură ce publicul devine mai familiarizat cu interacțiunea cu AI, oamenii vor reuși mai bine să le identifice în conversație.