Stiri

Google lansează Gemini 2.5 cu intonație și empatie

Scris de Silviu Jugaru | 4 iunie, 2025

Google a prezentat Gemini 2.5, o versiune avansată a modelului său A.I., care introduce noi capabilități de voce și text-to-speech (TTS). Aceste îmbunătățiri sunt concepute pentru a oferi interacțiuni vocale fluide, cu un ton natural, stil personalizabil și răspunsuri contextuale.

Una dintre cele mai importante noutăți este dialogul audio nativ în timp real, care permite schimburi de dialog fluente, cu latență redusă și intonare expresivă, apropiată de interacțiunile umane.

Modelul recunoaște emoțiile și tonalitatea vocii utilizatorului, adaptându-și răspunsurile în funcție de starea acestuia, permițând AI-ului să interpreteze și să producă vorbire cu intonare expresivă și răspunsuri rapide, eliminând întârzierile. Utilizatorii vor putea ajusta accentul, tonul și stilul vorbirii, inclusiv opțiuni precum șoapte sau intonare emoțională. De asemenea, A.I.-ul poate distinge între sunetele relevante și zgomotul de fundal, răspunzând doar când este necesar. Modelul suportă peste 24 de limbi, permițând combinarea mai multor limbi într-o singură conversație. Nu în ultimul rând, integrează informații în timp real din Google Search sau surse externe

Funcția de generare a vocii (Text-to-Speech) din Gemini 2.5 oferă un nivel remarcabil de personalizare și expresivitate, astfel că utilizatorii pot alege stiluri de narațiune variate, de la un tempo calm pentru povești sau poezie, până la tonuri mai energice pentru știri ori transmisiuni. În plus, Gemini poate simula dialoguri între mai multe voci, creând conversații dinamice, ce pot fi folosite în podcasturi de exemplu sau chiar conținut educațional sau scenarii interactive.

Google va pune la dispoziție două configurații: Gemini 2.5 Pro Preview, destinat producției audio de calitate superioară și Gemini 2.5 Flash Preview, optimizat pentru generarea rapidă de conținut audio.

Pentru a asigura transparență în utilizarea AI-ului vocal, toate materialele audio generate prin Gemini 2.5 includ SynthID, sistemul de watermarking digital de la Google care marchează clar conținutul produs de A.I. .

Funcționalitățile Gemini 2.5 au fost testate riguros, atât intern cât și extern cu echipe de „red teaming” (n.red. termen folosit în securitate cibernetică și testarea sistemelor prin simularea unor atacuri reale), pentru a preveni abuzurile și a detecta posibile vulnerabilități înainte de lansare publică.

Etichete: Gemini 2.5, Google, Text-to-speach

Sursa: Google's Blog

Google lansează Gemini 2.5 cu intonație și empatie

S-ar putea să-ți placă și: