Gemini 2.5 Computer Use: agentul AI navighează online la fel ca un om

Scris de | 9 octombrie, 2025
Gemini 2.5 Computer Use: agentul AI navighează online la fel ca un om

Google a lansat un nou model de inteligență artificială numit Gemini 2.5 Computer Use. Acesta permite agenților de inteligență artificială să interacționeze cu site-urile web și interfețele utilizator așa cum ar face-o o ființă umană. Acum este disponibil în versiunea preliminară publică prin intermediul API-ului Gemini pe Google AI Studio și Vertex AI.

Cum este Gemini 2.5 Computer Use

Noul AI agentic reprezintă tehnologia din spatele Project Mariner. Modelul se bazează pe capacitățile de înțelegere vizuală și raționament ale Gemini 2.5 Pro. Poate efectua o gamă largă de acțiuni bazate pe browser, cum ar fi clicuri, tastare, derulare, plasare cu mouse-ul pe ecran, deschiderea meniurilor derulante și navigarea prin adrese URL. Google afirmă că modelul depășește performanța instrumentelor concurente la mai multe teste de performanță, inclusiv Online-Mind2Web, WebVoyager și AndroidWorld, menținând în același timp o latență mai mică.

Gemini 2.5 Computer Use

Spre deosebire de modelele tradiționale de inteligență artificială care se bazează pe API-uri, Gemini 2.5 Computer Use procesează capturi de ecran ale interfețelor web și generează acțiuni specifice în interfața cu utilizatorul ca răspuns. Agentul primește o solicitare de sarcină, o captură de ecran a mediului digital și un istoric al acțiunilor recente. Apoi analizează interfața și returnează o acțiune în interfața cu utilizatorul, cum ar fi clicul pe un buton sau tastarea într-un câmp. Acțiunea este executată pe partea clientului, iar o nouă captură de ecran este trimisă înapoi modelului pentru a continua sarcina într-o buclă.

Google a demonstrat performanța modelului cu exemple care arată agentul sortând notițe adezive pe o tablă albă digitală și transferând detalii despre animalul de companie de pe un site web către un sistem CRM. Videoclipurile demonstrative sunt accelerate pentru a arăta procesul în timp real.

Modelul acceptă în prezent 13 acțiuni și funcționează cel mai bine cu browserele web. Google a declarat că nu este încă optimizat pentru sarcini la nivel de sistem de operare desktop, deși a demonstrat potențial în testele mobile.

De asemenea, Google a implementat măsuri de siguranță pentru a preveni utilizarea necorespunzătoare. Fiecare acțiune propusă de model este revizuită de un serviciu de siguranță înainte de execuție. Dezvoltatorii pot restricționa anumite acțiuni sau pot solicita confirmarea explicită a utilizatorului pentru sarcini cu risc ridicat, cum ar fi tranzacțiile financiare.

Mai multe echipe interne Google utilizează deja modelul în producție. Acesta acceptă testarea interfeței utilizator și sarcini de automatizare pe platforme precum Search și Firebase. Dezvoltatorii externi din programul de acces timpuriu au folosit modelul pentru a construi instrumente de automatizare a fluxului de lucru și de asistență.

Dezvoltatorii pot începe să utilizeze modelul prin Google AI Studio sau Vertex AI. Google oferă, de asemenea, un mediu demo prin Browserbase pentru testare și experimentare.

Etichete: , , , ,

Sursa: Gizmo China