François Chollet — Dal Benchmark ARC al Prize 2024 e l'Uscita da Google

Chi è: François Chollet è un ricercatore AI francese, in Google dal 2015 al novembre 2024. È universalmente noto come creatore di Keras — la libreria che ha reso il deep learning accessibile prima del dominio di PyTorch — e come autore del benchmark ARC (Abstraction and Reasoning Corpus), il test di intelligenza artificiale più discusso degli ultimi cinque anni. Nel 2024 ha co-fondato ARC Prize con Mike Knoop, lanciando una competizione da un milione di dollari per spingere la ricerca oltre il paradigma LLM. A novembre 2024 ha lasciato Google e ha fondato Ndea, un laboratorio dedicato a costruire AGI con metodi alternativi all'approccio dominante.

La traiettoria fino al 2023: Keras, ARC, le critiche al campo

Chollet entra in Google nel 2015 come ingegnere su DeepDream e altri progetti di visual computing. Quasi in parallelo, sviluppa Keras come progetto personale: una API ad alto livello che permette di costruire reti neurali in poche righe sopra TensorFlow (e successivamente JAX e PyTorch). Keras democratizza il deep learning. Nel 2017 viene integrato ufficialmente in TensorFlow, e milioni di sviluppatori imparano deep learning attraverso il suo libro Deep Learning with Python.

Già da quegli anni Chollet è una voce critica sul modo in cui il campo misura il progresso. Nel 2019 pubblica "On the Measure of Intelligence" su arXiv, propone una definizione formale di intelligenza basata sull'efficienza di acquisizione di nuove abilità, e introduce ARC come benchmark operativo. ARC viene quasi ignorato per anni — la community è troppo occupata a celebrare i progressi su MMLU, BIG-bench, HumanEval per prendere seriamente un benchmark in cui i modelli più capaci ottengono il 20% mentre gli umani fanno l'85%. Chollet diventa una specie di outsider intellettuale: rispettato per Keras, considerato eccentrico per le sue tesi sulla misurazione dell'intelligenza.

ARC Prize 2024: rendere la posta in gioco esplicita

Nel giugno 2024 Chollet lancia con Mike Knoop (cofondatore di Zapier) ARC Prize: una competizione con un montepremi totale di 1 milione di dollari per chi supera l'85% — la performance umana — sul benchmark ARC-AGI (la versione rinominata di ARC). Il premio grande è di 600K dollari per il vincitore, con premi minori per progressi parziali. Le regole sono severe: niente accesso a internet durante la valutazione, niente fine-tuning su esempi del test set, modelli sotto soglie di compute definite per favorire ingegnosità sopra forza bruta.

L'intento è duplice. Tecnico: forzare la ricerca a esplorare metodi che generalizzano davvero, non solo scalano i parametri. Comunicativo: mostrare al pubblico — e ai finanziatori — che esiste un test su cui i modelli più capaci al mondo falliscono drammaticamente, e che questo dovrebbe far riflettere sull'effettiva vicinanza dell'AGI. La narrativa dominante nel 2024 era "AGI è dietro l'angolo"; Chollet voleva un dato pubblico, oggettivo, ripetibile che mostrasse la distanza ancora da coprire.

Dicembre 2024: o3 e la svolta parziale

A dicembre 2024 OpenAI presenta o3, l'evoluzione del filone reasoning iniziato con o1. Sul private set di ARC-AGI, o3 ottiene 87.5% — superando la soglia umana e meritando, almeno teoricamente, il premio principale. C'è però un dettaglio importante: per ottenere quel risultato, o3 ha speso circa 350.000 dollari di compute sull'intero test set. Non è un sistema che ragiona efficientemente: è un sistema che esplora milioni di catene di ragionamento parallele e sceglie le migliori, in un setup che ricorda la ricerca su albero più dell'inferenza tradizionale.

Chollet riconosce il risultato come un avanzamento reale ma rifiuta di considerarlo "la soluzione" ad ARC-AGI. Le sue argomentazioni sono pubbliche e dettagliate. Primo: il costo computazionale di o3 è ordini di grandezza superiore a quello che un umano spende per risolvere lo stesso compito (un umano risolve un puzzle ARC in secondi, non in ore di compute distribuito). Secondo: il setup di o3 viola lo spirito (anche se non la lettera) delle regole della competizione, perché usa una quantità di compute che esclude qualsiasi confronto onesto con un sistema più piccolo. Terzo: o3 fa molti errori su problemi che gli umani trovano banali, suggerendo che il sistema non ha veramente colto il concetto ma sta brute-forcing una ricerca su uno spazio enorme di soluzioni candidate.

La risposta di Chollet: ARC 2, una nuova versione del benchmark in arrivo nel 2025, con puzzle progettati per essere resistenti anche all'approccio brute-force di o3. La competizione continua. L'obiettivo non è "qualcuno vince e abbiamo l'AGI", l'obiettivo è continuare a misurare il divario.

Una nuova definizione di intelligenza, in pratica

La tesi centrale di Chollet, sostenuta da anni e ribadita nel 2024, è che il campo AI ha costruito un equivoco semantico. Quando diciamo che un sistema è "intelligente", spesso intendiamo che ha performance alte su task noti. Ma performance alta su task noti è semplicemente memoria, eventualmente combinata con interpolazione su pattern visti. L'intelligenza vera, secondo Chollet, è altro: è la capacità di acquisire una nuova competenza in un dominio mai visto, partendo da pochissimi esempi, applicando ragionamento sui primi principi.

Un bambino di quattro anni che impara la grammatica della propria lingua dimostra intelligenza in questo senso. Un LLM addestrato su trilioni di token che risponde correttamente a una domanda di matematica probabilmente non la dimostra — sta interpolando su esempi simili che ha visto durante il training. La distinzione è scomoda perché implica che molto del "progresso" celebrato dal campo è in realtà scaling della memoria, non incremento dell'intelligenza.

Chollet non nega che lo scaling abbia prodotto cose utili — i modelli attuali sono economicamente valorosi e tecnicamente impressionanti. Nega che siano sulla strada dell'AGI nel senso forte del termine. Per arrivare lì, sostiene, servono architetture diverse: sistemi che combinano deep learning per la percezione con program synthesis simbolico per il ragionamento; sistemi neuro-simbolici; sistemi che generalizzano da pochi esempi attraverso meta-learning. Il filone "Solomonoff induction" e i program synthesis sono territori che secondo lui sono stati abbandonati troppo presto.

Novembre 2024: lascia Google, fonda Ndea

Nel novembre 2024 Chollet annuncia di lasciare Google dopo nove anni. La motivazione è esplicita: vuole costruire AGI con metodi alternativi all'approccio LLM dominante in Google DeepMind, e per farlo serve un laboratorio dedicato. Con Mike Knoop fonda Ndea, una nuova organizzazione di ricerca focalizzata su AGI tramite combinazione di deep learning e program synthesis.

La scelta è simbolicamente forte. Google DeepMind è uno dei laboratori AGI più importanti al mondo. Lasciarlo per costruire un'alternativa significa dichiarare che la strada principale non è quella giusta — almeno non l'unica. Ndea esplicitamente non investirà su LLM più grandi; investirà su architetture diverse, su benchmark come ARC, su algoritmi che generalizzano efficientemente.

Il pari è altissimo. Se Ndea riesce a produrre un sistema che batte ARC-AGI 2 senza i 350K dollari di compute di o3, Chollet avrà dimostrato che esiste una strada alternativa praticabile. Se non ci riesce, sarà la conferma che — per quanto eleganti — i metodi neuro-simbolici non scalano alla complessità del mondo reale come fanno i LLM. Ndea è uno degli esperimenti più importanti da seguire nei prossimi anni, indipendentemente da come finisce.

L'eredità intellettuale

Indipendentemente dal successo o meno di Ndea, il contributo di Chollet al campo è già consolidato. Keras ha formato una generazione di ingegneri ML. ARC ha costretto la community a confrontarsi con la differenza tra memoria e ragionamento. La definizione di intelligenza basata su efficienza di acquisizione di skill è entrata nel vocabolario standard del dibattito AI, anche tra chi non condivide le conclusioni di Chollet.

Il suo stile — preciso, contrarian, fondato tecnicamente — ha mostrato che si può criticare il consenso dominante senza diventare un mero contrarian gratuito. Le sue critiche partono sempre da definizioni operative, da esperimenti riproducibili, da numeri verificabili. È un modello di come fare disagreement scientifico in un campo che spesso preferisce l'evangelismo all'analisi.

Link alla fonte originale

fchollet.com — Sito personale di François Chollet →

Include link a paper, talk, post e annunci ufficiali. EN. Per ARC Prize: arcprize.org. Per Ndea: ndea.ai. Account X attivo: @fchollet.