On the Measure of Intelligence — François Chollet e il Benchmark ARC

Chi è: François Chollet, ingegnere software e ricercatore AI francese, lavora a Google Brain dal 2015. È il creatore di Keras, la libreria di deep learning che ha democratizzato l'accesso alle reti neurali prima che PyTorch diventasse dominante. È una delle voci più critiche e precise nel dibattito su cosa significhi davvero "intelligenza" nei sistemi AI attuali. Nel 2024 ha co-fondato ARC Prize, competizione da 1 milione di dollari sul benchmark che ha creato.

Il problema con i benchmark AI esistenti

Novembre 2019: mentre tutti i laboratori AI gareggiano per dominare benchmark come GLUE, SuperGLUE, ImageNet e SQuAD, Chollet pubblica un paper che pone una domanda scomoda. Questi benchmark misurano davvero l'intelligenza? Oppure misurano qualcosa di più banale — la capacità di memorizzare pattern su cui si è stati addestrati?

Il problema è strutturale. I benchmark tradizionali funzionano così: si definisce un task (classificazione di immagini, risposta a domande, traduzione), si raccoglie un dataset, si divide in train/test, si allena un modello sul train, si misura sul test. Un modello che ottiene 95% su ImageNet è "migliore" di uno che ne ottiene 90%. Ma questa logica nasconde un'assunzione cruciale: che la distribuzione del training set e quella del test set siano simili. Se un modello ha visto milioni di immagini di cani durante il training, distinguere i cani nel test set non è un esercizio di intelligenza — è un esercizio di memoria.

Chollet fa un'osservazione storica: ogni volta che un sistema AI domina un benchmark, il campo celebra come un passo verso l'AGI. Ma poi il sistema fallisce su varianti minime del task, su esempi leggermente fuori distribuzione, su situazioni mai viste in training. Il benchmark viene dichiarato "saturo" e se ne crea uno più difficile — ma strutturalmente identico. Il problema non è la difficoltà del benchmark: è il suo paradigma.

Una nuova definizione di intelligenza

Chollet propone una definizione formale: l'intelligenza è l'efficienza con cui un sistema acquisisce nuove abilità in risposta a nuove esperienze, dato un prior knowledge e experience. Tre elementi sono centrali in questa definizione.

Primo: l'intelligenza riguarda l'acquisizione di nuove skill, non la performance su skill già possedute. Un sistema che ha memorizzato la risposta a un milione di domande non sta dimostrando intelligenza quando risponde — sta dimostrando memoria. L'intelligenza si manifesta quando il sistema incontra una situazione genuinamente nuova e riesce a generalizzare.

Secondo: l'efficienza conta. Questo distingue l'intelligenza dalla semplice capacità di apprendimento con risorse infinite. Un bambino di 4 anni impara la grammatica della propria lingua madre da pochi anni di esposizione. Un LLM richiede trilioni di token. Questo non significa che il bambino sia "più intelligente" in tutti i sensi — ma suggerisce che il tipo di apprendimento è diverso. Il bambino generalizza da pochissimi esempi (few-shot generalization); il modello richiede enormi quantità di dati.

Terzo: il prior knowledge deve essere specificato. Ogni sistema intelligente parte da qualcosa — le strutture cognitive innate degli esseri umani, i bias architetturali di una rete neurale. Per misurare l'intelligenza in modo equo, bisogna essere espliciti su cosa il sistema "sa già" prima di incontrare il task di test.

ARC: Abstraction and Reasoning Corpus

Per rendere operativa questa definizione, Chollet crea ARC — Abstraction and Reasoning Corpus. Il formato è disarmante nella sua semplicità: griglie colorate. Ogni puzzle mostra alcune coppie di input/output (in genere 2-5), e il sistema deve inferire la regola e applicarla a un input nuovo.

Le regole che governano le trasformazioni usano concetti primitivi: simmetria, conteggio, pattern di colore, relazioni spaziali, inclusione e contenimento, continuazione di sequenze. Questi concetti sono accessibili a qualsiasi essere umano con capacità cognitive normali — anche bambini di 5-6 anni risolvono molti puzzle ARC. Non richiedono conoscenze specifiche, matematica avanzata, o esperienze culturali particolari. Chollet chiama questo "Core Knowledge": i blocchi cognitivi primitivi che gli esseri umani condividono per evoluzione.

Il punto cruciale: ogni puzzle ARC è unico. Non ci sono puzzle simili tra il training set e il test set. Non è possibile memorizzare la risposta — ogni puzzle richiede inferire una regola da zero, da pochissimi esempi. È esattamente il tipo di generalizzazione che la definizione di Chollet identifica come intelligenza.

Umani vs. LLM: il divario che non si chiude

I risultati sono illuminanti. Gli esseri umani — senza training speciale, semplicemente guardando i puzzle e provando a capire le regole — ottengono accuracy superiore all'85%. I bambini ottengono meno degli adulti, ma comunque molto di più di qualsiasi sistema AI.

GPT-4, rilasciato nel 2023, ottiene circa il 20% su ARC. Questo in un sistema che domina quasi tutti i benchmark linguistici esistenti, che supera la media umana nel bar exam, che scrive codice e poesia e ragiona su problemi complessi. Sul test di Chollet, GPT-4 performa come un bambino con difficoltà cognitive gravi.

La ragione è precisa: GPT-4 è addestrato su internet. ARC è progettato per essere irrisolvibile per memorizzazione. Qualsiasi pattern che un LLM possa aver visto durante il pretraining — griglia di colori, trasformazioni geometriche, sequenze — non aiuta su puzzle genuinamente nuovi. Il modello non sa estrarre la regola da 3 esempi e applicarla. Sa riconoscere pattern visti in training. Sono due capacità diverse.

ARC Prize 2024 e o3: la svolta parziale

Nel 2024, Chollet co-fonda ARC Prize insieme a Mike Knoop: una competizione con 1 milione di dollari di premio per il primo sistema che supera l'85% su ARC-AGI (la versione rinominata del benchmark). L'obiettivo dichiarato: spingere la ricerca verso approcci che generalizzano davvero, non verso LLM più grandi addestrati su più dati.

Il modello o3 di OpenAI, presentato a fine 2024, ottiene il 55% su ARC-AGI — un salto enorme rispetto al 20% di GPT-4. Ma il costo computazionale è enormemente superiore: o3 usa tempi di inferenza molto più lunghi, con ricerca su alberi di ragionamento. Non è chiaro se questo rappresenti un avanzamento qualitativo nell'intelligenza o semplicemente più compute applicato al problema.

Il 55% con compute massiccio vs. 85%+ degli umani senza sforzo speciale: il divario rimane, e la sua natura è diversa da qualsiasi altro benchmark. Chollet considera o3 un progresso reale ma non una soluzione al problema — e ARC Prize continua.

L'implicazione fondamentale

Il contributo di Chollet va oltre ARC come benchmark. È una critica epistemologica al modo in cui il campo AI misura il progresso. Se definiamo "intelligenza" come "performance su benchmark X" e poi costruiamo sistemi ottimizzati per benchmark X, stiamo misurando l'ottimizzazione, non l'intelligenza. La distinzione tra memorizzazione e ragionamento non è filosofica — è misurabile, e ARC la misura. Il fatto che i sistemi più capaci al mondo ancora falliscano così chiaramente su questo test è un'informazione importante su cosa abbiamo costruito finora — e su cosa manca ancora.

Link alla fonte originale

arXiv 1911.01547 — On the Measure of Intelligence →

Paper accademico libero. 72 pagine, tecnico ma accessibile. EN. ARC Prize: arcprize.org.