AI-ul Meta care a luat scoruri bune în testele benchmark recent nu este cel oferit publicului în varianta recent lansată LLama 4. De fapt, Meta a trișat un pic, înfrumusețând prezentarea făcută AI-ului său. În teste a fost implicată o „versiune experimentală” a AI-ului special optimizată pentru teste.
Meta și-a promovat AI-ul cu teste false
Zilele trecute, Meta a lansat două noi modele Llama 4: un model mai mic numit Scout și Maverick, un model de mărime medie despre care compania susține că poate depăși GPT-4o și Gemini 2.0 Flash „într-o gamă largă de benchmark-uri raportate pe scară largă”. Maverick și-a asigurat rapid locul doi pe LMArena, site-ul de referință AI unde oamenii compară rezultate din diferite sisteme și îl votează pe cel mai bun.
În comunicatul de presă al Meta, compania a evidențiat scorul ELO al lui Maverick de 1417, care l-a plasat peste varianta GPT4o al OpenAI și imediat sub Gemini 2.5 Pro. Un scor ELO mai mare înseamnă că modelul câștigă mai des în arenă atunci când se înfruntă cu concurenții. Realizarea a părut să poziționeze Llama 4 ca un competitor serios pentru modelele de ultimă generație de la OpenAI, Anthropic și Google. Apoi, cercetătorii AI care au studiat documentația lui Meta au descoperit ceva neobișnuit.
Cu litere mici, în subsolul documentației, Meta recunoaște că versiunea de Maverick testată pe LMArena nu este aceeași cu cea disponibilă publicului. Potrivit propriilor materiale ale Meta, a implementat o „versiune experimentală de chat” a lui Maverick la LMArena, care a fost special „optimizată pentru conversație”, lucru raportat de TechCrunch.
„Interpretarea făcută de către Meta a politicii noastre nu s-a potrivit cu ceea ce ne așteptăm de la furnizorii AI”, au comentat LMArena două zile după lansarea modelului. „Meta ar fi trebuit să explice mai clar că „Llama-4-Maverick-03-26-Experimental” a fost un model personalizat pentru a fi optimizat pentru preferințele umane. Ca urmare, ne actualizăm politicile clasamentului pentru a ne consolida angajamentul față de evaluări corecte și reproductibile, astfel încât această confuzie să nu apară în viitor”. Un purtător de cuvânt al Meta, Ashley Gabriel, a declarat într-o declarație trimisă prin e-mail că „experimentăm cu toate tipurile de variante personalizate”.
„Modelul experimental funcționează bine pe LMArena”, a spus el. „Am lansat versiunea open source și vom vedea cum dezvoltatorii personalizează Llama 4 pentru propriile cazuri de utilizare. Suntem încântați să vedem ce vor construi și așteptăm cu nerăbdare feedback-ul lor continuu”, a încheiat purtătorul de cuvânt Meta.
Deși ceea ce a făcut Meta cu Maverick nu este în mod explicit împotriva regulilor LMArena, site-ul și-a împărtășit îngrijorările cu privire la trișarea sistemului. A promis măsuri pentru „prevenirea supra-ajustării scorurilor”. Când companiile pot trimite versiuni special reglate ale modelelor lor pentru testare în timp ce lansează diferite versiuni pentru public, clasamentele de referință precum LMArena devin mai puțin relevante ca indicatori ai performanței în lumea reală.
La scurt timp după ce Meta a lansat Maverick și Scout, în comunitatea AI a început a început să circule un zvon că Meta și-a antrenat modelele Llama 4 pentru a performa mai bine la benchmark-uri, ascunzând de fapt limitările reale. Vicepreședintele AI generativ la Meta, Ahmad Al-Dahle, a respins acuzațiile într-o postare pe X: „Am auzit afirmații că ne-am antrenat modelele pe seturi de benchmark – pur și simplu nu este adevărat și nu vom face niciodată asta. Diferențe de calitate pe care le văd dezvoltatorii se datorează nevoii de a stabiliza implementările realizate”.