La risposta corretta è 9.9. Eppure, messi alla prova, sistemi come GPT-4o, Gemini e Claude 3.5 hanno indicato 9.11 come numero maggiore, talvolta accompagnando l’errore con spiegazioni elaborate sul confronto tra decimali.
Il caso è esploso nell’estate 2024 durante il talent cinese Singer 2024, quando il cantante Sun Nan superò la statunitense Chanté Moore con il 13,8% dei voti contro il 13,11%. Alcuni spettatori contestarono la classifica, convinti che il secondo numero fosse più alto. Qualcuno suggerì di chiedere all’AI. I chatbot locali interpellati diedero ragione a chi sbagliava.
Il problema che nemmeno l’Ai sa risolvere
Il problema non è il calcolo, ma il modo in cui un modello legge le cifre. Un’AI non percepisce “9.11” come un valore unico: lo spezza in frammenti — la tokenizzazione — trattando “11” e “9” come pezzi separati. In questa logica 11 è più di 9, e ciò che sta dopo la virgola finisce per pesare più del numero intero. A complicare le cose c’è il materiale su cui questi sistemi sono stati addestrati: nel software, la versione 9.11 viene dopo la 9.9, perché segue la numerazione progressiva delle release. E poiché chi sviluppa questi modelli scrive codice tutto il giorno, quel pattern è ovunque nei dati di addestramento.
Qui arriva il dettaglio meno intuitivo. I modelli più recenti hanno imparato a rispondere correttamente quando la domanda è posta in termini matematici. Ma la correzione ha aperto un altro fronte: chiedendo esplicitamente quale “versione” sia più recente tra la 9.9 e la 9.11, alcuni sistemi tornano a sbagliare, stavolta nella direzione opposta. L’AI non ha imparato a contare, ha imparato a indovinare quale contesto le stai chiedendo.
Che non sia un inciampo isolato lo conferma uno studio dei ricercatori di Apple dell’ottobre 2024. Sottoponendo i modelli a problemi di matematica di livello elementare, hanno scoperto che basta aggiungere una sola frase irrilevante — un’informazione vera ma inutile al calcolo — per far crollare l’accuratezza fino al 65%. In un esempio, a un quesito sulla raccolta di kiwi veniva inserito un dettaglio sulla dimensione di alcuni frutti: sufficiente a mandare in confusione sistemi che, senza quella frase, rispondevano correttamente.
La conclusione degli stessi ricercatori è netta: questi modelli non eseguono un ragionamento logico, replicano schemi visti durante l’addestramento. Quando un’AI risolve un problema complesso, spesso lo fa riconoscendo la forma della domanda, non comprendendone la sostanza. È la differenza tra uno studente che ha capito la regola e uno che ha memorizzato la soluzione.
Resta la domanda di partenza. Davanti a 9.11 e 9.9, quanto ci hai messo a rispondere? E saresti altrettanto sicuro se accanto ci fosse scritto “versione”?

