ChatGPT-5.2 disponibile: cosa cambia? (mistergadget.tech)
OpenAI lancia GPT-5.2; cos’è e come funziona? Cosa cambia con i modelli precedenti? Disponibile su ChatGPT e API a partire da oggi.
OpenAI ha presentato GPT-5.2, la serie di modelli più avanzata per attività professionali che richiedono competenze specialistiche. L’utente medio di ChatGPT Enterprise afferma di risparmiare 40-60 minuti al giorno, mentre gli utenti più assidui dichiarano un risparmio superiore a 10 ore alla settimana. GPT-5.2 è stato progettato per generare ancora più valore economico: risulta più efficace nel creare fogli di calcolo, sviluppare presentazioni, scrivere codice, interpretare immagini, comprendere contesti estesi, utilizzare strumenti e gestire progetti complessi a più fasi. Il modello stabilisce nuovi riferimenti di eccellenza in numerosi benchmark, incluso GDPval, dove supera i professionisti del settore in attività di lavoro che richiedono competenze specialistiche coprendo 44 professioni.
OpenAI: con ChatGPT-5.2 prestazioni professionali che superano gli esperti umani
GPT-5.2 Thinking è oggi il modello migliore di OpenAI per l’uso professionale. Su GDPval, una valutazione che misura attività di lavoro che richiedono competenze specialistiche in 44 professioni, GPT-5.2 Thinking stabilisce un nuovo livello di eccellenza ed è il primo modello OpenAI a operare a un livello pari o superiore a quello di un esperto umano. In particolare, GPT-5.2 Thinking supera o eguaglia i migliori professionisti del settore nel 70,9% delle comparazioni sulle attività di lavoro informativo GDPval, secondo giudici umani esperti.
Queste attività includono la creazione di presentazioni, fogli di calcolo e altri materiali di lavoro. GPT-5.2 Thinking ha prodotto risultati per le attività di GDPval a una velocità superiore di oltre 11 volte e a un costo inferiore all’1% rispetto ai professionisti esperti, suggerendo che, se abbinato alla supervisione umana, GPT-5.2 può supportare efficacemente il lavoro professionale. Nel valutare un output particolarmente riuscito, un giudice di GDPval ha commentato: “È un salto emozionante e notevole nella qualità dell’output… sembra essere stato realizzato da un’azienda professionale con personale”.
Nel benchmark interno sulle attività di modellazione finanziaria svolte da analisti junior nel settore dell’investment banking, come la creazione di un modello a tre prospetti per una società Fortune 500 con formattazione e citazioni corrette o lo sviluppo di un modello di leveraged buyout per una privatizzazione, GPT-5.2 Thinking ottiene un punteggio medio superiore del 9,3% rispetto a GPT-5.1, aumentando dal 59,1% al 68,4%.
Programmazione agentica: nuovo standard con 55,6% su SWE-bench Pro
GPT-5.2 Thinking stabilisce un nuovo riferimento di eccellenza con il 55,6% su SWE-bench Pro, una rigorosa valutazione dell’ingegneria del software in scenari reali. A differenza di SWE-bench Verified che valuta esclusivamente Python, SWE-bench Pro testa quattro linguaggi e mira a essere più resistente alla contaminazione, più rigoroso, più diversificato e maggiormente rilevante per l’industria. Su SWE-bench Verificato, GPT-5.2 Thinking raggiunge un nuovo massimo dell’80%.
Per l’uso professionale quotidiano, questo significa avere un modello in grado di eseguire il debug del codice di produzione in modo più affidabile, implementare nuove funzionalità, rifattorizzare codebase estese e completare correzioni end-to-end con meno interventi manuali. Partner come Cognition, Warp, Charlie Labs, JetBrains e Augment Code affermano che GPT-5.2 offre prestazioni di codifica agentica all’avanguardia, con miglioramenti misurabili in aree come la codifica interattiva, le revisioni del codice e l’individuazione di bug.
GPT-5.2 Thinking mostra inoltre prestazioni migliori nello sviluppo front-end rispetto a GPT-5.1 Thinking. I primi tester hanno rilevato miglioramenti significativi nello sviluppo front-end e nel lavoro su interfacce complesse o non convenzionali, in particolare quando coinvolgono elementi 3D, rendendolo un supporto quotidiano potente per gli ingegneri in diversi ambiti. Jeff Wang, CEO di Windsurf, ha dichiarato: “GPT-5.2 rappresenta il più grande salto per i modelli GPT nella programmazione agentica dai tempi di GPT-5 ed è un modello all’avanguardia nella sua fascia di prezzo“.
Meno allucinazioni e comprensione contesti lunghi migliorata
GPT-5.2 Thinking presenta meno allucinazioni rispetto a GPT-5.1 Thinking. Su un insieme di query de-identificate da ChatGPT, le risposte contenenti errori sono risultate inferiori del 38% rispetto al modello precedente. Per i professionisti, questo significa un numero minore di errori nelle attività di ricerca, scrittura, analisi e supporto decisionale, rendendo il modello più affidabile nel lavoro quotidiano basato sulle informazioni. Il tasso di errore si è ridotto dal 8,8% al 6,2%.
GPT-5.2 Thinking stabilisce un nuovo standard nel ragionamento su contesti lunghi, raggiungendo prestazioni di punta su OpenAI MRCRv2, una valutazione che misura la capacità di integrare informazioni distribuite in documenti molto estesi. In attività reali come l’analisi approfondita di documenti che richiedono di collegare informazioni presenti in centinaia di migliaia di token, GPT-5.2 Thinking risulta nettamente più accurato rispetto a GPT-5.1 Thinking. È inoltre il primo modello che mostra un’accuratezza prossima al 100% nella variante a quattro needle di MRCR, fino a 256.000 token.
In termini pratici, questo consente ai professionisti di utilizzare GPT-5.2 per lavorare con documenti lunghi come report, contratti, articoli di ricerca, trascrizioni e progetti composti da più file, mantenendo coerenza e accuratezza anche su volumi molto elevati di testo. Ciò rende GPT-5.2 particolarmente adatto ad analisi approfondite, sintesi complesse e flussi di lavoro che richiedono l’integrazione di informazioni provenienti da diverse fonti.
Capacità visive e utilizzo strumenti potenziati
GPT-5.2 Thinking è anche il modello più avanzato di OpenAI nell’elaborazione visiva. Riduce di circa la metà il tasso di errore nelle attività che richiedono analisi di grafici e comprensione di interfacce software. Su CharXiv Reasoning, domande su figure scientifiche, GPT-5.2 raggiunge l’88,7% contro l’80,3% di GPT-5.1. Su ScreenSpot-Pro, comprensione di screenshot GUI, raggiunge l’86,3% contro il 64,2% del predecessore.
Per l’uso professionale quotidiano, ciò significa una capacità più accurata di interpretare dashboard, screenshot di prodotti, diagrammi tecnici e report visivi, supportando flussi di lavoro in finanza, operations, ingegneria, design e assistenza clienti, dove le informazioni visive hanno un ruolo centrale. Rispetto ai modelli precedenti, GPT-5.2 Thinking ha una comprensione più accurata della disposizione degli elementi all’interno di un’immagine, aspetto fondamentale nelle attività in cui il layout relativo è determinante.
Progressi in scienze, matematica e ragionamento astratto
Una delle principali ambizioni di OpenAI per l’IA è contribuire ad accelerare la ricerca scientifica. GPT-5.2 Pro e GPT-5.2 Thinking sono oggi i modelli migliori al mondo per assistere e potenziare il lavoro degli scienziati. Su GPQA Diamond, un benchmark di domande a livello avanzato in fisica, chimica e biologia, GPT-5.2 Pro raggiunge il 93,2%, seguito da GPT-5.2 Thinking al 92,4%.
Disponibilità, prezzi e feedback primi tester
Su ChatGPT, GPT-5.2 Instant, Thinking e Pro iniziano la distribuzione graduale oggi, partendo dai piani a pagamento (Plus, Pro, Go, Business, Enterprise). GPT-5.1 resterà disponibile per gli utenti paganti per tre mesi come modello legacy. Nell’API, i modelli sono disponibili immediatamente per tutti gli sviluppatori. GPT-5.2 ha un prezzo di 1,75$/1M token di input e 14$/1M token di output, con sconto del 90% sui token memorizzati nella cache.
Sebbene le tariffe degli abbonamenti a ChatGPT siano rimaste invariate, in API GPT-5.2 ha un costo per token più alto rispetto a GPT-5.1, in linea con le capacità superiori del modello. OpenAI ha scoperto che, nonostante il costo per token più elevato, il costo necessario per raggiungere un determinato livello di qualità risulta inferiore grazie alla maggiore efficienza dei token di GPT-5.2.
I primi tester hanno condiviso feedback entusiasti. AJ Orbach, CEO di Triple Whale, ha dichiarato: “GPT-5.2 ha reso possibile un cambio completo della nostra architettura. Abbiamo consolidato un fragile sistema multi-agente in un unico mega-agente con oltre 20 strumenti. La cosa migliore è che funziona, semplicemente. Il mega-agente è più veloce, più intelligente e cento volte più semplice da mantenere“.