ChatGPT Images si rinnova e sfida Gemini Nano Banana (mistergadget.tech)
OpenAI lancia GPT-Image-1.5 per ChatGPT Images: editing selettivo fedele, generazione 4x più veloce, gestione testo migliorata. API con costi -20%.
OpenAI ha avviato il rilascio di una nuova versione di ChatGPT Images che introduce un aggiornamento profondo del modello di generazione delle immagini e dell’esperienza d’uso all’interno di ChatGPT. Il nuovo sistema è basato su quello che l’azienda di Sam Altman definisce il proprio modello di image generation più avanzato finora, con miglioramenti mirati nella fedeltà alle istruzioni, nella precisione degli interventi di editing e nella velocità di generazione, che arriva ora fino a quattro volte rispetto alla versione precedente. Il modello GPT-Image-1.5 rappresenta salto significativo nelle capacità creative multimodali della piattaforma.
ChatGPT Images: editing selettivo con preservazione identità visiva
Uno dei punti centrali dell’aggiornamento riguarda la gestione delle modifiche puntuali. Quando viene richiesto un intervento su un’immagine esistente, ChatGPT Images segue l’istruzione in modo più affidabile, fino ai dettagli più minuti, preservando ciò che conta per l’identità visiva dello scatto. Il modello interviene in modo selettivo, modificando esclusivamente gli elementi indicati dall’utente e mantenendo coerenti aspetti come illuminazione, composizione e resa dei soggetti anche attraverso iterazioni successive.
Dal punto di vista funzionale, il sistema dimostra particolare efficacia nelle principali operazioni di editing, tra cui aggiunta, rimozione, combinazione, fusione e trasposizione di elementi. Le applicazioni pratiche includono interventi fotografici più controllabili, prove virtuali di abbigliamento e acconciature con risultati più credibili, oltre a filtri stilistici e trasformazioni concettuali che mantengono l’essenza dell’immagine originale. Fidji Simo, CEO Applications di OpenAI, ha sottolineato: “Creare e modificare immagini è un tipo di attività diverso e merita uno spazio progettato per il lavoro visivo”.
Trasformazioni creative e gestione testo migliorata
Oltre all’editing, il nuovo modello mostra progressi rilevanti nelle trasformazioni creative, ovvero nelle operazioni che cambiano o aggiungono elementi complessi come testo e layout per dare forma a concetti articolati. Queste trasformazioni funzionano sia su idee semplici sia su composizioni più elaborate e possono essere avviate anche senza prompt testuali dettagliati, sfruttando stili e preset disponibili nella nuova sezione Images di ChatGPT.
Migliora anche la capacità di seguire istruzioni strutturate. Rispetto alla prima generazione del modello, GPT-Image-1.5 gestisce in modo più affidabile composizioni complesse in cui è necessario rispettare relazioni precise tra gli elementi, come nel caso di griglie articolate con oggetti specifici distribuiti per righe e colonne. Parallelamente, OpenAI ha lavorato sulla resa del testo all’interno delle immagini, con una gestione più solida di caratteri piccoli e testi densi, rendendo più affidabili infografiche, layout editoriali e contenuti di tipo informativo.
API con riduzione costi 20% e adozione enterprise
Le stesse capacità introdotte in ChatGPT Images sono disponibili anche tramite API con GPT-Image-1.5. Rispetto a GPT Image 1, il nuovo modello garantisce una conservazione più coerente di loghi e visual chiave attraverso le modifiche, caratteristica rilevante per utilizzi professionali legati a marketing, branding ed e-commerce. In questi contesti, il modello è utilizzato per generare cataloghi di prodotto completi a partire da una singola immagine sorgente, includendo varianti, ambientazioni e punti di vista differenti.
OpenAI indica anche una riduzione dei costi pari a circa il 20% per input e output di immagini rispetto alla generazione precedente, consentendo una maggiore iterazione con lo stesso budget. Il modello è accessibile anche tramite OpenAI Playground, una galleria di esempi e una guida dedicata ai prompt. Diverse aziende stanno già adottando GPT-Image-1.5 nei propri flussi di lavoro, tra cui Wix, Canva, Higgsfield, Figma Weave ed Envato.
Hila Gat, Head of AI Research and Data Science di Wix, ha dichiarato: “GPT Image 1.5 genera immagini ad alta fedeltà con una forte aderenza alle istruzioni, preservando composizione, illuminazione e dettagli fini. I risultati sono puliti, realistici e affidabili, e supportano flussi di lavoro più rapidi dalla fase di concept alla produzione”. La nuova versione è in distribuzione globale su tutte le versioni di ChatGPT, senza necessità di selezionare manualmente un modello specifico.
Il confronto con Gemini Nano Banana
Mentre OpenAI punta su modelli cloud potenti come GPT-Image-1.5 per generazione immagini di alta qualità, Google sta esplorando approccio diverso con capacità on-device. Sebbene Gemini Nano Banana attualmente non offra generazione immagini nativa, Google ha dimostrato interesse per portare funzionalità AI multimodali direttamente sui dispositivi. La differenza fondamentale sta nell’architettura: OpenAI privilegia potenza computazionale cloud per massimizzare qualità e fedeltà, accettando latenza di rete e costi server, mentre Google con Nano esplora efficienza on-device per privacy, velocità e funzionamento offline.
Questa divergenza filosofica riflette strategie aziendali più ampie: OpenAI monetizza tramite abbonamenti premium ChatGPT e chiamate API dove qualità giustifica costi, mentre Google integra AI gratuitamente nell’ecosistema Android per differenziare hardware e servizi. Per generazione immagini, modelli cloud come GPT-Image-1.5 attualmente dominano per qualità, ma avanzamenti in quantizzazione e ottimizzazione potrebbero eventualmente portare capacità simili on-device, scenario dove Google con esperienza Tensor e TPU mobile avrebbe vantaggio.