Indice
Google introduce in Gemini 3.5 Flash la funzione Computer Use: l’AI controlla PC e app tramite screenshot, clic e automazione avanzata.
Google accelera ancora sul fronte dell’intelligenza artificiale applicata all’automazione e introduce in Gemini 3.5 Flash una delle funzioni più radicali mai viste finora: il cosiddetto Computer Use, un sistema in grado di controllare direttamente un PC attraverso interfacce grafiche, come se fosse un utente reale.
Non si tratta più solo di generare testo, codice o risposte intelligenti. Qui l’AI entra letteralmente nell’uso operativo del computer, interagendo con finestre, pulsanti, browser e applicazioni desktop.
Come funziona il “Computer Use” di Gemini
Il meccanismo alla base della nuova funzione è più vicino a un sistema di automazione visiva che a un classico assistente vocale o testuale.
Tutto parte da uno screenshot dell’interfaccia: Gemini analizza lo stato del desktop o dell’applicazione e interpreta cosa è visibile a schermo. A quel punto genera una serie di azioni possibili, come clic del mouse, digitazione da tastiera o scroll.
Queste azioni non vengono eseguite direttamente dall’AI, ma da un ambiente controllato dello sviluppatore. Il sistema applica le istruzioni, cattura un nuovo screenshot aggiornato e lo reinvia a Gemini. Il ciclo si ripete fino al completamento del compito.
In pratica, si crea una sorta di loop continuo tra “osservazione” e “azione”, che permette all’AI di portare avanti operazioni complesse senza intervento umano diretto.
Non solo browser: il controllo si estende al desktop
Una delle differenze più importanti rispetto alle versioni precedenti è l’estensione del controllo. Se in passato il sistema era limitato soprattutto al browser, ora Gemini 3.5 Flash può operare anche in ambienti desktop completi e, in alcuni scenari, su dispositivi mobile. Questo significa che l’AI non si limita più a navigare pagine web, ma può interagire con software installati, moduli locali e interfacce più complesse.
È un cambio di paradigma significativo: il modello non “consuma informazioni”, ma agisce direttamente sull’ambiente digitale.
Dall’anteprima alla piattaforma principale
Google aveva già sperimentato questa tecnologia con Gemini 2.5 Computer Use e in alcune versioni preliminari di Gemini 3 Pro e 3 Flash. Tuttavia, la novità di questa release è strutturale: il Computer Use non è più un modulo separato, ma viene integrato direttamente nel modello principale Gemini 3.5 Flash.Questo passaggio è importante perché suggerisce una direzione chiara: l’interazione agentica con i sistemi operativi non è più un esperimento, ma una componente centrale della piattaforma AI di Google.
Cosa può fare: automazione, ricerca e workflow complessi
Le applicazioni potenziali sono molto ampie e vanno ben oltre l’automazione basilare. Secondo Google, il sistema può essere utilizzato per:
- compilazione automatica di moduli e documenti
- test di applicazioni software
- navigazione e raccolta informazioni su più siti web
- gestione di workflow aziendali articolati
- supporto operativo in attività ripetitive o multi-step
In altre parole, qualsiasi attività che oggi richiede passaggi manuali su interfacce grafiche può, in teoria, essere delegata a Gemini.
Prestazioni spinte e contesto esteso fino a un milione di token
Gemini 3.5 Flash non è solo un modello “operativo”, ma anche uno strumento progettato per gestire carichi complessi.
Google conferma una finestra di contesto fino a 1 milione di token in input e fino a 65.000 token in output, numeri che lo rendono adatto a flussi di lavoro molto lunghi e articolati, come analisi di codice, documenti estesi o sessioni di automazione multi-step.
Questo lo posiziona chiaramente come un modello pensato per uso professionale e per agenti AI avanzati, più che per semplici chatbot.
Sicurezza: il punto più delicato del sistema
Un sistema che può controllare un computer pone inevitabilmente problemi di sicurezza. Google ha dichiarato di aver introdotto un addestramento specifico per ridurre i rischi legati a usi malevoli, in particolare scenari di attacco basati su prompt injection o manipolazione del flusso operativo.
Inoltre, il sistema può richiedere conferme esplicite da parte dell’utente prima di eseguire azioni sensibili o potenzialmente irreversibili. Se queste conferme non arrivano, l’AI interrompe automaticamente il processo.
È una misura necessaria, considerando che il confine tra automazione utile e controllo non autorizzato è molto sottile in questo tipo di architetture.
Dalla ricerca all’azione: un cambio di ruolo per l’AI
Con Gemini 3.5 Flash, l’intelligenza artificiale compie un salto concettuale importante: da strumento che risponde a richieste a sistema che esegue compiti.
Non si limita più a suggerire cosa fare, ma prova a farlo direttamente, osservando il risultato e correggendo il comportamento in tempo reale. È una direzione che avvicina sempre di più i modelli AI al concetto di “agenti autonomi”, capaci di operare dentro ambienti digitali complessi senza supervisione costante.
Resta da capire quanto questo approccio sarà scalabile e soprattutto quanto sarà sicuro in contesti reali, ma la traiettoria è ormai tracciata.
