OpenAI ammette che tutti i browser AI sono vulnerabili a prompt injection

OpenAI ammette che i browser AI come Atlas sono vulnerabili agli attacchi di prompt injection e il problema potrebbe non essere mai completamente risolto.

Mentre OpenAI lavora incessantemente per rafforzare le difese del suo nuovo browser Atlas AI contro i cyberattacchi, l’azienda ha fatto un’ammissione che getta un’ombra piuttosto preoccupante sul futuro della sicurezza online di questa intera categoria di browser. I cosiddetti prompt injection, cioè quegli attacchi che manipolano gli agenti di intelligenza artificiale tramite istruzioni malevole nascoste strategicamente in pagine web o email, sono un rischio che non scomparirà presto.

In un post pubblicato sul blog aziendale lunedì scorso, la società guidata da Sam Altman ha paragonato questo fenomeno alle truffe tradizionali e all’ingegneria sociale, definendolo essenzialmente un problema che difficilmente verrà mai completamente risolto. Si tratta di un’ammissione piuttosto rara per un’azienda tecnologica, che normalmente tende a minimizzare i rischi di sicurezza dei propri prodotti per non allarmare gli utenti e gli investitori.

Il lancio di ChatGPT Atlas a ottobre ha immediatamente attirato l’attenzione dei ricercatori di sicurezza, che hanno dimostrato in pochi giorni come bastassero poche parole inserite strategicamente in un semplice Google Doc per alterare completamente il comportamento del browser. Non si tratta affatto di un caso isolato o di un problema specifico di OpenAI. Anche il National Cyber Security Centre del Regno Unito e competitor come Brave hanno avvertito pubblicamente che gli attacchi basati sui prompt contro l’intelligenza artificiale generativa potrebbero non essere mai totalmente mitigabili, mettendo seriamente a rischio la sicurezza dei dati personali e aziendali.

L’introduzione della cosiddetta modalità agente in Atlas, che permette all’intelligenza artificiale di agire autonomamente per conto dell’utente senza richiedere conferma per ogni singola azione, espande inevitabilmente e drammaticamente la superficie di attacco disponibile per eventuali malintenzionati.

OpenAI sviluppa un hacker virtuale basato su AI per trovare le falle

Per contrastare questa problematica crescente, OpenAI ha sviluppato un attaccante automatizzato basato su un proprio modello di linguaggio. Si tratta sostanzialmente di un bot addestrato attraverso tecniche di reinforcement learning per comportarsi esattamente come un hacker esperto, attraverso un sistema che simula attacchi estremamente complessi per vedere come l’intelligenza artificiale bersaglio reagisce in tempo reale.

Questo permette agli ingegneri di sicurezza di scoprire potenziali falle di sicurezza prima che vengano effettivamente sfruttate nel mondo reale da criminali informatici veri. Secondo quanto dichiarato da OpenAI stessa, questo hacker virtuale è riuscito a individuare strategie di attacco completamente inedite, che erano sfuggite persino ai team umani di controllo qualità e sicurezza che lavorano costantemente per identificare vulnerabilità.

L’approccio è innovativo ma solleva anche questioni filosofiche interessanti. Essenzialmente OpenAI sta usando l’intelligenza artificiale per combattere i problemi creati dall’intelligenza artificiale stessa, in una sorta di corsa agli armamenti tecnologica dove entrambe le parti utilizzano gli stessi strumenti. Non è chiaro se questo approccio possa davvero funzionare nel lungo termine o se rappresenti soltanto una soluzione temporanea a un problema fondamentalmente irrisolvibile.

OpenAI: i browser AI sono a rischio attacco (mistergadget.tech)

Email di dimissioni inviata automaticamente: il caso che dimostra i rischi

Un esempio molto concreto e piuttosto inquietante dei rischi effettivi è stato mostrato in una demo ufficiale preparata da OpenAI. L’attaccante automatizzato ha inserito un’istruzione malevola nascosta all’interno di un’email apparentemente innocua ricevuta dall’utente. Quando l’agente di intelligenza artificiale ha scansionato la casella di posta elettronica per gestire la corrispondenza, ha eseguito l’ordine nascosto senza rendersi conto che si trattava di un attacco.

Invece di scrivere una semplice risposta automatica di assenza dall’ufficio come avrebbe dovuto fare normalmente, l’agente AI ha inviato un messaggio di dimissioni al datore di lavoro dell’utente. Sebbene l’aggiornamento di sicurezza successivo abbia corretto questo scenario specifico, l’episodio evidenzia in modo drammatico quanto siano sottili, pericolose e potenzialmente devastanti queste manipolazioni.

Immaginate le conseguenze se un attacco simile venisse utilizzato per approvare transazioni finanziarie, cancellare dati importanti o condividere informazioni riservate con persone non autorizzate. Le possibilità sono praticamente infinite e molto preoccupanti.

Gli esperti di sicurezza informatica esterni invitano alla massima cautela nell’adozione di questi strumenti. Rami McCarthy della società di cybersecurity Wiz sottolinea che il rischio reale degli agenti di intelligenza artificiale deriva dalla pericolosa combinazione di due fattori: “autonomia” e “accesso”. I browser agenziali come Atlas hanno un accesso estremamente elevato a dati sensibili come email personali, informazioni di pagamento e documenti riservati, e allo stesso tempo godono di un’autonomia moderata ma comunque significativa nel prendere decisioni.

Le raccomandazioni di OpenAI per ridurre i rischi di sicurezza

Per questo motivo, OpenAI consiglia caldamente agli utenti di ridurre i rischi adottando alcune precauzioni fondamentali. Prima di tutto, è essenziale richiedere sempre una conferma esplicita prima che l’agente AI invii messaggi o effettui pagamenti per conto dell’utente. In secondo luogo, è importante fornire istruzioni molto specifiche e dettagliate all’agente, evitando comandi generici o ambigui che potrebbero essere interpretati in modo imprevisto o sfruttati da istruzioni malevole nascoste.

Queste raccomandazioni però sollevano una domanda piuttosto scomoda. Se gli utenti devono comunque confermare ogni azione importante e fornire istruzioni estremamente dettagliate, quale vantaggio reale offre un agente autonomo rispetto a un’interfaccia tradizionale? Parte del fascino dei browser AI è proprio la promessa di delegare compiti noiosi e ripetitivi senza dover supervisionare costantemente ogni singola operazione.

Se questa promessa non può essere mantenuta senza rischi di sicurezza inaccettabili, forse l’intera categoria di prodotto necessita di un ripensamento fondamentale prima di essere davvero pronta per un’adozione di massa. Per ora sembra che gli utenti debbano scegliere tra convenienza e sicurezza, un compromesso che non dovrebbe essere necessario in un prodotto maturo e ben progettato.

Tags: chatGPT openai

Related Stories

Ora è l’AI che assume noi: il sito dove le macchine ti danno lavoro

Se hai questo tipo di TV forse è tempo di dirgli addio: anche se l’hai comprata da poco

One UI 8.5 è in arrivo, ma molti Samsung Galaxy resteranno fermi: ecco chi resta escluso