OpenAI: tentativele de a corecta AI-ul când minte au eșuat

Scris de | 21 martie, 2025
OpenAI: tentativele de a corecta AI-ul când minte au eșuat

OpenAI spune că tentativele de a disciplina AI-ul atunci când minte îl fac pe acesta doar să fie și mai rău. Compania vrea astfel să avertizeze de fapt împotriva aplicării unei supravegheri sau reglementări asupra inteligenței artificiale. Compania consideră că agenții AI vor continua să mintă și pur și simplu nu vor recunoaște acest lucru.

AI-ul minte și inventează

După cum mulți utilizatori au raportat deja, AI-urile precum ChatGPT au o predispoziție pentru minciună. Recent a ieșit la iveală că încearcă să și trișeze la șah. Agenții AI sunt instruiți pentru a produce propoziții care sună cu autoritate, dar ar putea prezenta informații complet fabricate. Modelele sunt încurajate să ofere un răspuns chiar și atunci când nu dețin de fapt informațiile respective. Acum, cercetătorii de la OpenAI spun că supravegherea și disciplinarea chatboților nu face decât să înrăutățească problema. Aceștia vor depune mai mult efort pentru a-și ascunde comportamentul.

Într-o postare pe blog referitoare la această problemă, cercetătorii OpenAI descriu utilizarea modelului său GPT-4o pentru a „supraveghea” un alt model LLM. Scopul era ca acesta să-l corecteze atunci când a încercat să mintă. Dar testul a eșuat, deoarece modelul a mințit în continuare.  „Acum înșelăciunea sa este și mai mare, pentru că a învățat să-și ascundă intenția în lanțul gândirii”.

Modelele AI mai noi folosesc raționamentul în mai mulți pași pentru a răspunde la întrebări. Dacă un utilizator solicită o estimare cu privire la cât cheltuiesc americanii pe hrana pentru animale de companie în fiecare an, de exemplu, aceste modele vor împărți interogarea în mai mulți pași:  câți câini sunt în țara respectivă, cât costă să hrănești un câine obișnuit și la final vor estima o cifră.

De asemenea, aceste modele își dezvăluie adesea logica, sau „lanțul de gândire”, utilizatorului. Astfel încât acesta să poată vedea cum a ajuns la răspunsul final. Destul de amuzant, ei vor face în mod regulat să inventeze fapte și detalii. În pasul de „pre-training”, atunci când companii precum OpenAI învață inițial un model ce tipuri de răspunsuri ar trebui să producă, modelele par să învețe că este mai ușor să ofere un răspuns rapid. Gândiți-vă la alergătorul într-un maraton care se urcă într-o mașină și sare peste cea mai mare parte a cursei ajungând direct la final.

Cercetătorii OpenAI au prezentat un exemplu din testarea lor. Modelul a primit cererea să scrie niște teste pentru a se asigura că o bucată de cod funcționează. Acesta a decis pe furiș să scrie niște teste proaste și apoi să sară peste ele în mod intenționat, ajungând la concluzia că acel cod funcționează perfect.  Chiar și atunci când a fost folosit GPT-4o ca supervizor, modelul face același lucru, doar că nu l-a dezvăluit în raționamentul pas cu pas.

Producătorii AI speră ca tehnologia să depășească faza aberațiilor atunci când va atinge „singularitatea”, adică nivelul de inteligență uman. Dar cercetătorii OpenAI spun în esență că, după investiții de zeci de miliarde de dolari, încă nu știu cum să controleze modelele pentru a se comporta corespunzător. „Dacă o supraveghere puternică se aplică direct lanțului de gândire, modelele pot învăța să-și ascundă intenția, continuând să se comporte greșit”, au explicat ei.

Etichete: , , ,

Sursa: Gizmodo