È quanto emerge dal primo benchmark pubblico, realizzato da scommesse.io, che confronta 14 modelli di intelligenza artificiale su oltre 2300 previsioni sportive reali e 210 simulazioni complete del torneo. Tutti i modelli ricevono lo stesso input, vengono valutati con gli stessi criteri e operano in modo indipendente, rendendo confrontabili i risultati ottenuti.
A guidare la classifica è WizardLM di Microsoft, mentre i modelli più conosciuti dal grande pubblico occupano posizioni molto più basse del previsto. I risultati suggeriscono che, almeno in contesti caratterizzati da forte incertezza, notorietà e dimensione del modello non coincidono necessariamente con le migliori performance.
Le AI più famose restano fuori dalla top 5: ChatGPT settima, Claude e Grok in fondo alla classifica
Al 29 giugno, con oltre 2300 previsioni già valutate e 210 simulazioni complete del Mondiale, il benchmark restituisce un risultato inatteso. La classifica non è costruita sulla semplice percentuale di previsioni corrette, ma sul ROI (Return on Investment, ossia il rendimento teorico delle previsioni rispetto alle probabilità disponibili al momento della previsione), una metrica che premia i modelli capaci di valutare correttamente l’incertezza e identificare gli esiti sottovalutati. In testa non ci sono ChatGPT, Gemini o Claude, ma WizardLM di Microsoft, seguito da GLM di ZhipuAI e Nemotron di NVIDIA.
| Posizione | Modello AI | ROI |
| 1° | WizardLM | +19,7% |
| 2° | GLM | +9,5% |
| 3° | Nemotron | +8,2% |
| 4° | Seed | +7,1% |
| 5° | Gemini | +6,9% |
| 6° | DeepSeek | +4,4% |
| 7° | ChatGPT | +4,2% |
| 8° | Qwen | +3,6% |
| 9° | ERNIE | +0,9% |
| 10° | Claude | +0,1% |
| 11° | Kimi | -3,1% |
| 12° | LeChat | -4,2% |
| 13° | Grok | -6% |
| 14° | Nova | -14,2% |
Il dato più sorprendente riguarda però i modelli più conosciuti dal grande pubblico. Gemini è il migliore del gruppo, ma occupa soltanto il quinto posto con un ROI del +6,9%. ChatGPT è settima, mentre Claude e Grok sono, rispettivamente, al decimo e al tredicesimo posto della classifica delle 14 AI.
Il modello di OpenAI si ferma al +4,2%, ma le performance più deludenti sono quelle di Claude, solo +0,1% di ROI. Nel caso di Claude, il risultato è ancora più significativo perché emerge dopo 183 previsioni valutate, uno dei campioni più ampi dell’intero benchmark.
Grok occupa la penultima posizione con un ROI di -6%, il secondo peggior risultato registrato finora nel benchmark, in costante aggiornamento.
La parte della classifica a ridosso delle prime include Seed (+7,1%), DeepSeek (+4,4%) e Qwen (+3,6%), tra il quarto e l’ottavo posto. Sono tre modelli sviluppati da aziende cinesi che si collocano appena sotto la soglia del ROI positivo, nonostante provengano da laboratori che hanno investito miliardi nello sviluppo dell’intelligenza artificiale.
Il dato più interessante, però, emerge confrontando ROI e percentuale di previsioni corrette. Le due metriche non si muovono necessariamente nella stessa direzione. Un modello può indovinare molti risultati limitandosi a scegliere gli esiti più probabili e ottenere comunque un ROI negativo. Al contrario, un modello che individua correttamente situazioni sottovalutate dal mercato può risultare più efficace pur commettendo un numero maggiore di errori. Per questo la classifica non misura semplicemente quante volte un’AI indovina un risultato, ma quanto bene riesce a gestire e calibrare la propria incertezza in un contesto reale.
| Modello AI | Previsioni corrette | N. previsioni |
| WizardLM | 54,2% | 153 |
| GLM | 53,1% | 194 |
| Nemotron | 48,4% | 182 |
| Seed | 52,2% | 186 |
| Gemini | 55,4% | 139 |
| DeepSeek | 48,5% | 134 |
| ChatGPT | 51,6% | 182 |
| Qwen | 50% | 174 |
| ERNIE | 47,6% | 187 |
| Claude | 46,4% | 183 |
| Kimi | 44,9% | 167 |
| LeChat | 42,9% | 203 |
| Grok | 54,7% | 117 |
| Nova | 47,3% | 131 |
Stessi dati, Mondiali diversi: alcune AI vedono Ghana e Giappone campioni del mondo
Le simulazioni complete del torneo mostrano quanto i modelli possano divergere anche quando ricevono gli stessi dati in ingresso. In alcune run emergono scenari inattesi che aiutano a comprendere come ogni AI rappresenti l’incertezza e distribuisca le probabilità sugli eventi futuri.
Una delle simulazioni più inattese arriva da Nemotron, che in una delle dieci run vede il Ghana vincere il Mondiale 2026. Il modello motiva anche l’esito della finale, attribuendo il successo del Ghana al dominio del centrocampo e a una doppietta di Inaki Williams contro l’Algeria.
Non si tratta però di un caso isolato. Nella decima run, ChatGPT 5.2 ha previsto la vittoria del Giappone dopo aver eliminato Francia ai sedicesimi, Germania agli ottavi e Spagna in semifinale, per poi superare l’Austria ai rigori in finale. Le simulazioni più estreme non si fermano qui: oltre a una seconda vittoria del Giappone (pronosticata da LeChat), emergono anche Bosnia e Corea del Sud come campioni del mondo in alcune run di ChatGPT 5.2, mentre GLM individua l’Algeria come vincitrice del torneo.
Le divergenze emergono anche nelle singole partite. Nel match tra Cechia e Sudafrica, dieci modelli su quattordici avevano previsto una vittoria ceca, ma l’incontro si è concluso in pareggio. L’episodio evidenzia un altro aspetto interessante del benchmark: modelli diversi tendono a commettere errori simili, suggerendo l’esistenza di schemi decisionali simili anche tra sistemi sviluppati da aziende differenti.
Anche le AI hanno una geopolitica: i modelli orientali e occidentali immaginano Mondiali diversi
Le 210 simulazioni complete del torneo mostrano che le differenze tra i modelli non riguardano soltanto il vincitore finale, ma il modo stesso in cui ciascuna AI distribuisce le probabilità. Analizzando le dieci run indipendenti di ogni modello emergono livelli molto diversi di sicurezza, variabilità e propensione agli scenari inattesi.
Nel complesso, l’Argentina emerge come la vincitrice più probabile del torneo: 50 simulazioni su 210 la indicano campione del mondo. La Francia è invece la finalista più ricorrente, presente in 44 finali senza riuscire a conquistare il titolo.
Ma il dato più interessante emerge osservando il comportamento dei singoli modelli. Alcuni mostrano una convinzione molto elevata nelle proprie previsioni: Llama 4 Maverick indica l’Argentina vincitrice in nove simulazioni su dieci, mentre Claude Opus 4.7 sceglie la Spagna in otto run. Altri, invece, distribuiscono le probabilità in modo molto più ampio, segnale di una maggiore incertezza nella valutazione degli scenari possibili.
- Llama 4 Maverick ha pronosticato 9 vittorie dell’Argentina;
- Claude Opus 4.7 ha pronosticato 8 volte su 10 la vittoria della Spagna;
- Opus 4.6 ha detto 7 volte su 10 che vincerà l’Argentina;
- Gemini 3.1 Pro ha previsto 7 vittorie dell’Uruguay (con 2 del Portogallo e 1 dell’Olanda, evitando le 4 favorite assolute).
ChatGPT è il modello più imprevedibile
ChatGPT è il caso più evidente: nelle dieci simulazioni indipendenti individua ben nove campioni del mondo differenti. Questa elevata variabilità non è necessariamente un limite, ma può indicare che il modello attribuisce maggiore peso all’incertezza del torneo e distribuisce le probabilità su un numero più ampio di scenari possibili.
| Modello | Numero vincitori differenti | Vincitori pronosticati |
| ChatGPT 5.2 | 9 | Germania (2), Giappone, Bosnia, Inghilterra, Portogallo, Spagna, Francia, Corea del Sud, Brasile |
| Nemotron | 7 | Germania (3), Brasile (2), Ghana, Francia, Olanda, Portogallo, Inghilterra |
| Qwen 3.6 Max | 6 | Francia (3), Colombia (2), Germania (2), Brasile (2), Spagna, Portogallo |
| Mistral | 5 | Argentina (3), Brasile (2), Francia (2), Marocco (2), Giappone |
Un’ultima differenza emerge osservando la provenienza dei modelli. Quelli sviluppati in Asia assegnano il titolo al Brasile in venti delle ottanta simulazioni complessive, mentre i modelli occidentali lo indicano vincitore ventidue volte su centotrenta simulazioni. Non si tratta di una prova dell’esistenza di bias geografici, ma di un risultato sufficientemente ricorrente da suggerire che modelli sviluppati in ecosistemi differenti possano attribuire pesi diversi agli stessi dati.
Tre lezioni che il Mondiale sta insegnando sull’intelligenza artificiale
Tre insight emergono già a torneo in corso, indipendentemente da come finirà la classifica.
Il primo riguarda la calibrazione. I modelli migliori non sono quelli che “sanno di più”, come potrebbero essere Claude e ChatGPT. Piuttosto, sono quelli che pesano meglio la propria incertezza. La classifica per ROI premia chi identifica il valore dove non è ovvio. È una distinzione che nella teoria dei LLM si discute da anni in termini astratti: questo esperimento la rende misurabile su centinaia di casi reali.
Il secondo riguarda i bias di training. Gli errori ricorrenti tra modelli diversi, la sovrastima della tradizione, la difficoltà con gli upset nelle fasi a eliminazione diretta, non riflettono limiti intrinseci del ragionamento. Riflettono la composizione dei dati con cui sono stati trainati: più dati di manifestazioni sportive in formato campionato che di torneo, più copertura delle competizioni europee rispetto a quelle mondiali, più testo descrittivo che dati strutturati sulle dinamiche psicologiche delle partite. Correggere quei bias non richiede architetture più grandi, richiede dati migliori.
Il terzo riguarda la ripetizione come metodo. Le 210 simulazioni esistono esattamente perché una singola previsione è rumore. Un modello che risponde una volta a una domanda difficile non ti dice quasi nulla sulla sua calibrazione. Un modello che risponde dieci volte alla stessa domanda, partendo da zero ogni volta, ti mostra la distribuzione della sua incertezza, e quella distribuzione è informativa quanto il valore atteso. È una logica applicabile a qualunque contesto in cui si usano LLM per decisioni importanti: una risposta non basta.
La classifica live, con tutte le previsioni originali e i risultati, è pubblica su aibetting.tips/leaderboard. Il torneo finisce il 19 luglio. Nessuna previsione è stata cancellata.




























































