Stiri

Google a lansat Gemini 3.1 Flash Lite: mai rapid și mai ieftin

Scris de Tiberiu Mărăcineanu | 5 martie, 2026

Cel mai nou model de inteligență artificială de la Google este aici: Gemini 3.1 Flash-Lite, iar cele mai mari îmbunătățiri de data aceasta se referă la cost și viteză. Este util în special pentru companii și dezvoltatori care doresc să valorifice raționamentul puternic și capacitățile multimodale ale gigantului american de căutare și cloud.

Cum este Gemini 3.1 Flash-Lite

Această lansare vine la doar câteva săptămâni după debutul din februarie al fratelui său de talie mare, Gemini 3.1 Pro, completând o strategie pe niveluri care permite companiilor să scaleze inteligența pe fiecare nivel al infrastructurii lor. Google are și modelul Flash, care este mai rapid. Iar cu Gemini 3.1 Flash-Lite mizează pe viteză și prețuri atractive.

În lumea inteligenței artificiale de mare randament, metrica care dictează adesea experiența utilizatorului nu este doar precizia, ci și latența. Pentru asistența clienților în timp real, moderarea conținutului live sau generarea instantanee a interfeței utilizator, „timpul până la primul token de răspuns” este principalul indicator al faptului dacă o aplicație se simte ca un instrument sau ca un coechipier. Dacă un model are nevoie chiar și de două secunde pentru a începe să răspundă, iluzia interacțiunii fluide este ruptă.

Gemini 3.1 Flash-Lite este conceput special pentru această senzație instantanee. Conform testelor interne și evaluărilor terțe, Flash-Lite depășește predecesorul său, Gemini 2.5 Flash, cu un timp de 2,5 ori mai rapid până la primul token. În plus, se mândrește cu o creștere de 45% a vitezei generale de ieșire – 363 de token-uri pe secundă comparativ cu 249.

Această viteză este atinsă prin ceea ce Koray Kavukcuoglu, vicepreședinte de cercetare la Google DeepMind, descrie într-o postare pe X ca o cantitate incredibilă de inginerie complexă pentru a face ca inteligența artificială să pară instantanee.

Poate cea mai inovatoare adăugare tehnică este introducerea nivelurilor de gândire. Standardizată atât pentru variantele Flash-Lite, cât și pentru cele Pro, această caracteristică permite dezvoltatorilor să moduleze dinamic intensitatea raționamentului modelului. Pentru o sarcină simplă de clasificare sau o analiză de sentimente cu volum mare, modelul poate fi redus pentru viteză maximă și cost minim.

În schimb, pentru explorarea complexă a codului, generarea de tablouri de bord sau crearea de simulări, gândirea poate fi intensificată, permițând modelului să efectueze raționamente și logici mai profunde înainte de a emite primul răspuns.