Stiri

Google lansează deja AI-ul Gemini 1.5, AI-ul care poate analiza rapid o oră de video sau 11 ore de înregistrări audio

Scris de Cătălin Nițu | 16 februarie, 2024

Google a anunțat oficial Gemini, „familia” sa de AI-uri multimodale, abia în decembrie, iar săptămâna trecută, Gemini a devenit un produs real, înlocuind experimentul „Bard”. Gemini va înlocui în curând și Google Assistant, se pare, însă înainte ca acest lucru să se întâmple în mod oficial, AI-ul Google va primi îmbunătățiri semnificative. Deja Google anunță Gemini 1.5, prima revizie majoră a modelului său AI, care intră acum în teste și urmează să fie lansat în viitorul apropiat.

Gemini 1.5 Pro, la fel de performant ca versiunea 1.0 Ultra

Îmbunătățirile din Gemini 1.5 țin în primul rând de de eficiență. Există mai multe versiuni de Gemini, fiecare cu un nivel mai ridicat de complexitate, putând oferi rezultate mai bune și mai avansate. Aceste versiuni sunt și mult mai „costisitoare” din punct de vedere al puterii de procesare necesare, așa că te poți aștepta ca Ultra să consume cele mai multe resurse atunci când generează rezultate. Google spune că Gemini 1.5 Pro, practic nivelul mediu, poate oferi acum rezultate comparabile cu versiunea 1.0 Ultra, consumând astfel mai puține resurse.

Alte îmbunătățiri ar fi posibilitatea de a procesa până la un milion de token-uri deodată (practic silabe în format text), ceea ce îl face cel mai avansat AI din piață din acest punct de vedere. Acest avantaj înseamnă că va putea procesa texte sau seturi de date mai mari pentru a le procesa apoi pe baza cerințelor utilizatorilor. Acest „buffer” pentru context poate ajuta și în realizarea unor aplicații mult mai utile, care să țină minte contextul relevant pentru sarcinile cerute.

Gemini 1.5 este însă momentan disponibil doar pentru dezvoltatori și clienții din zona „enterprise”. Singurul model de test disponibil este modelul 1.5 Pro, deci nu va fi diponibil momentan un model Ultra și mai avansat. Versiunea de test va fi limitată la context de 128.000 de token-uri pentru context, însă o parte dintre cei care testează vor putea accesa întregul buffer de 1 milion prin intermediul AI Studio și Vertex AI.

Google a realizat și un grafic prin care compară Gemini 1.5 Pro cu alte modele lingvistice din piață, precum versiunea Gemini 1.0 Pro, capabil să țină minte 32.000 token-uri, pe care o oferă în prezent, GPT4-Turbo de la Open AI cu 128.000 token-uri și Claude 2.1 cu 200.000 token-uri.

Noua versiune poate analiza cantități imense de date mult mai rapid

Gemini 1.5 Pro poate analiza deodată clipuri video de o oră, 11 ore de conținut audio, 30.000 de linii de cod sau 700.000 de cuvinte. Se pare că în testele Google, Gemini 1.5 Pro poate ajunge și la 10 milioane de token-uri.

Printre exemplele de date pe care Google le-a putut analiza cu ajutorul Gemini 1.5 Pro dintr-o dată au fost stenogramele misiunii Apollo 11 de la NASA, document de 402 pagini, care reprezintă doar o treime din capacitatea AI-ului, un film mut, și un proiect cu 100.000 de linii de cod. AI-ul a putut apoi să identifice elemente din film, să ofere sugestii de modificări în cod și explicații pe baza acestuia și să identifice corect detalii despre misiunea NASA.

Cel mai probabil, Gemini 1.5 Pro va fi disponibil în mod public contra cost, însă chiar și o versiune 1.5 „standard” ar trebui să ofere măcar o parte dintre aceste capabilități pentru publicul larg care va folosi AI-ul pe smartphone sau în browser.