Sparks of AGI — Microsoft Research trova scintille di intelligenza generale in GPT-4

Chi è: Sébastien Bubeck e 14 altri ricercatori Microsoft Research. Paper di 155 pagine pubblicato su arXiv il 22 marzo 2023 — una settimana dopo il lancio di GPT-4. Bubeck è vice president of research di Microsoft. Il paper è stato letto 500.000+ volte nella prima settimana. Ha diviso l'accademia: alcuni lo considerano una svolta, altri un hype documentato da ricercatori al servizio del loro datore di lavoro.

La tesi

Il punto di partenza del paper è una constatazione empirica: GPT-4 mostra comportamenti che non rientrano comodamente nelle categorie precedenti di sistemi AI. Non è un classificatore. Non è un sistema esperto. Non è semplicemente un modello linguistico migliore dei precedenti in senso quantitativo. Mostra qualcosa di qualitativamente diverso.

La tesi dei ricercatori: GPT-4 mostra "scintille di intelligenza artificiale generale". Non AGI compiuta — i ricercatori lo sottolineano esplicitamente e ripetutamente nel testo. Ma capacità che vanno ben oltre il pattern matching su dati di training, che si generalizzano in modo sorprendente a task mai visti, e che sono distribuite su un numero straordinariamente ampio di domini diversi.

La parola chiave nel titolo non è "AGI" — è "scintille." L'immagine è quella di qualcosa che non è ancora fuoco, ma che contiene già il potenziale per diventarlo. Questa scelta terminologica, deliberatamente sfumata, ha sia difeso il paper dalle critiche più aggressive sia alimentato una parte del dibattito.

I ricercatori propongono anche una definizione operativa di intelligenza che usano come riferimento per i test: la capacità di svolgere task ragionevolmente complessi in domini diversi senza addestramento specifico, inclusi task che richiedono ragionamento, pianificazione, comprensione del linguaggio naturale e interazione con ambienti nuovi.

I test più sorprendenti

Il cuore del paper è un catalogo di esperimenti su task che GPT-4 esegue in modo inatteso per un LLM. Alcuni esempi documentati:

Disegno in TikZ: i ricercatori chiedono a GPT-4 di disegnare un unicorno usando TikZ, un linguaggio di grafica vettoriale per LaTeX che richiede specificare coordinate geometriche precise. GPT-4 produce codice che genera un'immagine riconoscibile come unicorno — un task che richiede comprensione spaziale e traduzione tra descrizione semantica e coordinate numeriche.
Matematica avanzata: GPT-4 risolve problemi di matematica olimpica con approcci che i ricercatori descrivono come originali, non semplicemente recupero di soluzioni memorizzate.
Diagnosi medica: presenta prestazioni comparabili a quelle di medici specialisti su casi clinici descritti in linguaggio naturale, inclusi casi con presentazioni atipiche.
Teoria della mente: risponde correttamente a test classici di False Belief — scenari che richiedono di modellare le credenze errate di altri agenti.
Coding su task nuovi: genera codice funzionante per problemi di programmazione descritti informalmente, inclusi task che richiedono scelte di design architetturale.

La varianza è alta, e questo è uno degli aspetti più documentati. GPT-4 supera PhDs su certi task difficili, poi fallisce su variazioni di problemi apparentemente più semplici. Il profilo di competenza è irregolare in modo non intuitivo — "jagged", secondo la terminologia poi diffusa da Ethan Mollick.

L'accusa di conflict of interest

La reazione di una parte della community scientifica è stata dura. L'accusa principale: il paper è marketing mascherato da scienza, prodotto da ricercatori che lavorano per un'azienda che ha investito 13 miliardi di dollari in OpenAI e che ha tutto l'interesse commerciale a far credere che GPT-4 sia vicino all'AGI.

I critici più espliciti — tra cui Gary Marcus, Yann LeCun, e molti accademici del NLP — hanno sollevato diversi problemi metodologici:

I test non sono standardizzati né replicabili: i prompt usati non sono sempre esatti, i criteri di successo sono spesso giudicati qualitativamente dai ricercatori stessi.
I fallimenti sono sottorappresentati: il paper mostra i casi impressionanti, non un campione casuale delle performance.
Il termine "AGI" non ha una definizione operazionale condivisa in letteratura. Usarlo nel titolo orienta la percezione prima ancora di leggere il testo.
Il paper non ha passato peer review prima della pubblicazione: è stato pubblicato direttamente su arXiv, bypassando il processo di revisione standard.

La critica più elegante è stata formulata così: se un ricercatore di un'azienda farmaceutica pubblicasse uno studio non peer-reviewed che dichiara "scintille di cura" per un farmaco prodotto da quella stessa azienda, la comunità scientifica chiederebbe molto di più prima di prendere le conclusioni sul serio.

La risposta dei ricercatori

Bubeck et al. non ignorano le critiche, né nel paper né nelle interviste successive. La risposta è articolata su più livelli.

Prima: i limiti di GPT-4 sono documentati esplicitamente nel paper — non in una nota a piè di pagina, ma in sezioni dedicate. GPT-4 manca di memoria persistente tra sessioni diverse. Non impara in tempo reale dall'interazione. Ha inconsistenze interne che un agente razionale non avrebbe. Può allucinare fatti con grande confidenza linguistica. Il paper non dice "GPT-4 è AGI": dice "GPT-4 mostra capability che si discostano qualitivamente dal paradigma precedente."

Seconda: la definizione di intelligenza usata nel paper è operativa e pragmatica, non filosofica. Non si chiede se GPT-4 sia "veramente" intelligente nel senso cognitivo o fenomenologico. Si chiede se esegue task che, se eseguiti da un umano, verrebbero descritti come intelligenti — una distinzione pragmatica, non ontologica.

Terza: l'alternativa all'espressione "scintille di AGI" era un titolo tecnico noioso che nessuno avrebbe letto. La scelta terminologica è deliberatamente evocativa. Questo è un problema di comunicazione scientifica, non di rigore scientifico nel contenuto.

Il contributo reale

Indipendentemente dal dibattito sul termine AGI, il paper ha fatto qualcosa di concretamente utile per la comunità scientifica e per chi prende decisioni sull'AI: ha prodotto un catalogo sistematico di 155 pagine delle capability di un modello frontier su task molto diversi tra loro.

Prima di questo paper, la community disponeva di benchmark standardizzati (MMLU, HellaSwag, HumanEval) e di aneddoti informali. Nessuno aveva sistematizzato cosa succede quando si chiede a GPT-4 di fare cose bizzarre e inaspettate su decine di domini. Il paper riempie questo vuoto.

Ha anche spostato il burden of proof nel dibattito. Chi sosteneva che i LLM fossero "solo pattern matching statistico" doveva, dopo questo paper, spiegare come il pattern matching statistico producesse un unicorno in TikZ, risolvesse problemi olimpici con approcci originali, e diagnosticasse casi medici atipici. Non è impossibile rispondere a questa domanda, ma richiede un'argomentazione più sofisticata della semplice affermazione.

Nel 2025, con Claude 3.5, GPT-4o, Gemini Ultra e i modelli successivi, molte delle capability documentate nel paper Sparks sono diventate baseline. Le "scintille" sono diventate più brillanti. La domanda se stiano convergendo verso qualcosa di qualitativamente diverso — o se stiano semplicemente diventando migliori pattern matcher a scala sempre maggiore — rimane aperta.

Link alla fonte originale

arxiv.org/abs/2303.12528 →

Paper 155 pagine, EN. Pubblicato marzo 2023. Open access.