Modelul AI lansat cu mai puțin de un an în urmă, GPT-4o de la OpenAI, a fost îmbunătățit cu noi funcții. Cea mai recentă actualizare este generarea de imagini, poate crea text mai clare în imagini și poate urma instrucțiunile din limbajul natural pentru a modifica imaginile până când obțineți un rezultat cât mai bun.
Îmbunătățiri pentru generarea de imagini
Acum aproape un an, OpenAI lansa modelul rațional GTP-4o. Era un model AI multimodal, iar litera „o” este prescurtarea de la „omni”, ceea ce înseamnă că ChatGPT-4o poate recunoaște mai multe tipuri de interacțiuni: prin text, vorbire și prin fotografii sau clipuri video. Acum a venit timpul pentru actualizare, dar nu au trecut la o altă generație, ci rămâne sub același brand.
Generarea imaginii începe de obicei cu introducerea unui mesaj text, apoi rafinați imaginea prin rafinarea promptului original. GPT-4o funcționează diferit – îi cereți o imagine, apoi îi spuneți ce să schimbe, apoi îi cereți să schimbe mai multe lucruri și așa mai departe până când obțineți rezultatul. De asemenea, una din marile îmbunătățiri este redarea textului. Primele modele AI s-au luptat cu textul – dacă le cereați să genereze un semn, în cel mai bun caz, veți obține un semn cu cuvinte fără sens, în cel mai rău caz, veți obține niște semne care nu sunt nici măcar litere. Însă rezultatele cu GPT-4o par să fie mult mai bune.
Puteți începe și cu mai multe imagini deodată și puteți integra elemente din fiecare imagine în rezultatul final. OpenAI spune că GPT-4o este grozav în a urma instrucțiuni detaliate. Poate manipula 10-20 de obiecte diferite într-o scenă fără să se împiedice. Au pus și niște demonstrații pe video:
GPT-4o nu este perfect însă și OpenAI a recunoscut acest lucru. Uneori, decupează imaginile în partea de jos, halucinațiile sunt încă o problemă, lucrul cu mai mult de 10-20 de obiecte poate fi dificil, iar redarea textului cu caractere non-latine necesită și mai mult lucru.