Nuovi studi smontano il mito delle "skill" separate: i modelli AI hanno un'unica sagoma di intelligenza, come noi umani. E la correlazione è spaventosa.

Il test di equivalenza

Immagina di assumere uno sviluppatore. Gli fai un colloquio su Python e spacca tutto. Poi, per scrupolo, gli chiedi di risolvere un problema di geometria olimpica — e lo risolve comunque meglio del 90% dei candidati.

Nell'IA sta succedendo esattamente questo. I ricercatori di Epoch AI hanno analizzato oltre 100 test diversi (dai problemi di matematica AIME al coding su HumanEval, fino al ragionamento scientifico GPQA) e hanno scoperto una cosa inquietante: i punteggi tra argomenti completamente diversi sono praticamente gemelli.

Il dato che fa impazzire i data scientist? La somiglianza tra performance ("correlazione" per chi ama i paroloni) è del 68% tra domini diversi, contro il 79% tra test dello stesso tipo. La differenza è così piccola che diventa ridicola: un modello che migliora in matematica migliora automaticamente in programmazione, ragionamento logico e compiti scientifici. Non è fortuna, è anatomia computazionale.

Il "quoziente intellettivo" delle macchine

In psicologia c'è il concetto di fattore g (general intelligence): se sei bravo a fare una cosa, probabilmente sei bravo a farle tutte. Per decenni abbiamo pensato che l'AI fosse diversa — un esperto autistico di Excel che non sa fare una divisione. Invece no: i transformer stanno sviluppando la stessa struttura unificata.

Un'analisi su 591 modelli diversi ha trovato un "fattore abilità generale artificiale" che spiega da solo il 66% dei risultati. Tradotto: non esistono più "esperti di nicchia". Non puoi avere un IA geniale a generare codice ma idiota a risolvere equazioni. O è competente in tutto, o è inutile in tutto. Come un buon ingegnere, insomma.

Perché succede? Cervelli che ragionano, non database parlanti

Non è magia. È che sotto il cappotto i meccanismi sono gli stessi:

🧩 Pattern universali — La capacità di seguire una catena logica lunga (tipo: "se X allora Y, se Y allora Z") serve identicamente per la matematica, il coding e il problem solving. Non sono skill diverse, è lo stesso muscolo mentale che si allena.

🔄 Il transfer one-way — Stai attento qui: se alleni un modello solo su matematica, migliora anche in programmazione (+15% di performance). Se lo alleni solo su coding, la matematica migliora molto meno. Questo significa che il ragionamento matematico è più "fondamentale" del coding — è come imparare a pensare prima di imparare un linguaggio specifico.

🧠 Geometria stabile — Le rappresentazioni interne dei modelli (come "vedono" le informazioni) restano coerenti across domini. Addestrarli a ragionare bene preserva la struttura mentale, mentre addestrarli a memoria (supervised fine-tuning puro) fa collassare tutto in specializzazioni inutili.

Cosa cambia per chi sviluppa (e per chi usa)

Fine dei benchmark inutili — Se la correlazione è così alta, fare 100 test diversi è solo autoerotismo accademico. Ne basta uno ben fatto per predire le altre 99 capacità. La corsa a benchmark ogni 5 minuti sta diventando performance theater.

La qualità batte la specializzazione — Vuoi un'IA brava a programmare? Non darle solo codice. Dagli matematica avanzata, problemi NP-hard, planning logico. Phi-4-Reasoning ha dimostrato che addestrare su problemi matematici complessi migliora il modello del 30-60% anche su task mai visti prima (tipo organizzare calendari o risolvere puzzle logici).

Scala + Ragionamento = Tutto — Aumentare i parametri aiuta (più "cervello"), ma conta soprattutto come ragiona. L'RL (reinforcement learning) preserva la mente generale, l'SFT puro la spezza in tanti pezzi specialistici che non parlano tra loro.

La correlazione 0.68 è la prova che stiamo costruendo intelligenze generali scalari, non tool specialistici. Non esiste "l'IA per il coding" o "l'IA per la matematica". Esiste solo "l'IA che ragiona bene" e "l'IA stupida".

E questo spaventa più di quanto sembri, perché significa che quando un modello supererà i test di logica formale, avrà già superato di fatto tutti gli altri benchmark. Non sarà una scalata graduale, ma un salto unico e verticale.

Fonti chiave: Epoch AI Research, studio sull'Artificial General Ability, paper su Math-to-Code transfer, report tecnico Phi-4

Se l'IA è brava in matematica, automaticamente sa anche programmare (e non è un caso)

Il test di equivalenza

Il "quoziente intellettivo" delle macchine

Perché succede? Cervelli che ragionano, non database parlanti

Cosa cambia per chi sviluppa (e per chi usa)

Assistente Anathema