Language Models are Few-Shot Learners — il paper GPT-3

Chi è: Tom Brown e oltre 30 ricercatori OpenAI. GPT-3 ha 175 miliardi di parametri — 100 volte GPT-2. Pubblicato su arXiv il 28 maggio 2020, presentato a NeurIPS 2020. L'API è stata rilasciata in beta accesso controllato nell'estate 2020. Per oltre un anno, GPT-3 era accessibile solo tramite liste di attesa — e già così ha trasformato centinaia di startup.

La scoperta centrale: few-shot learning

Prima di GPT-3, il flusso di lavoro standard per applicare un modello linguistico a un task specifico era rigido e costoso. Serviva il fine-tuning: raccogliere centinaia o migliaia di esempi etichettati per il task desiderato, riaddestrare il modello su quei dati, deployare una versione specializzata. Questo ciclo richiedeva dati, tempo, competenza ML e risorse computazionali. Era una barriera alta per chiunque non avesse un team di data science dedicato.

GPT-3 introduce un paradigma radicalmente diverso chiamato few-shot learning in-context: non serve riaddestrare nulla. Basta descrivere il task nel prompt, opzionalmente con alcuni esempi, e il modello generalizza.

Zero-shot: solo la descrizione del task, nessun esempio. "Traduci in francese: Hello."
One-shot: un singolo esempio di input-output prima della richiesta reale.
Few-shot: da 2 a 10 esempi che mostrano il pattern desiderato.

Il modello non aggiorna i propri pesi. Non apprende nel senso tradizionale del machine learning. Usa il contesto del prompt come istruzione implicita sul tipo di output atteso e generalizza da lì. Questa distinzione è fondamentale: il few-shot learning di GPT-3 avviene interamente durante l'inferenza, senza nessuna modifica ai parametri del modello.

Per il 2020, questo era sorprendente. GPT-2, il predecessore, non riusciva in modo affidabile nel few-shot su task arbitrari. GPT-3 sì, e su una gamma di task straordinariamente ampia.

Perché 175 miliardi di parametri

La risposta empirica è semplice: perché funziona meglio. Il paper documenta in modo sistematico che le performance migliorano in modo prevedibile all'aumentare della scala — parametri, dati di training, compute totale. Ma la relazione non è puramente lineare: ci sono salti qualitativi.

GPT-2 con 1.5 miliardi di parametri mostrava capacità few-shot inconsistenti. GPT-3 con 175 miliardi le mostra robuste su decine di benchmark diversi. Non è un miglioramento del 10% sugli stessi task: è l'emergere di capability che semplicemente non esistevano a scala inferiore. Task come la traduzione zero-shot verso lingue rare, la generazione di codice coerente, la risposta a domande aperte complesse — tutto questo appare o migliora drammaticamente con l'aumento di scala.

Questo ha confermato empiricamente la scaling hypothesis: l'idea che l'intelligenza nei modelli linguistici emerga principalmente dalla scala, non da architetture speciali o inductive biases sofisticati. Una convinzione controversa all'epoca — e ancora dibattuta teoricamente oggi — ma che ha orientato gli investimenti dell'intera industria per i cinque anni successivi.

In-context learning come paradigma

Il meccanismo teorico dell'in-context learning non era completamente compreso nel 2020 e non lo è del tutto nemmeno oggi. Il modello non aggiorna i pesi con i pochi esempi nel prompt: li usa come distribuzione di riferimento per inferire il formato, lo stile e il tipo di output atteso.

Una spiegazione possibile: durante il training su trilioni di token, GPT-3 ha visto migliaia di volte sequenze del tipo "esempio 1 → risposta 1, esempio 2 → risposta 2, ... → ?". Ha imparato il meta-pattern "quando vedo questa struttura, devo completare seguendo il pattern mostrato." L'in-context learning non sarebbe quindi vero apprendimento ma attivazione di meta-pattern appresi durante il training.

L'implicazione pratica è enorme: puoi creare un nuovo "comportamento" del modello semplicemente scrivendo un buon prompt, senza toccare i pesi, senza infrastruttura ML. Nasce formalmente il prompt engineering come disciplina. Nelle settimane successive alla release dell'API, centinaia di persone hanno iniziato a pubblicare prompt per task diversissimi — riassunti, classificazioni, generazione di codice, trasformazioni di testo — e a condividerli come si condividono ricette di cucina.

I risultati e i limiti

Il paper documenta risultati su decine di benchmark: traduzione automatica (GPT-3 supera sistemi fine-tuned su alcune coppie linguistiche in few-shot), question answering (TriviaQA, WebQuestions), generazione di testo coerente, completamento di codice, task di ragionamento aritmetico semplice, comprensione del linguaggio naturale.

I limiti sono documentati con altrettanta onestà. GPT-3 fallisce in modo prevedibile su:

Aritmetica multi-step: sommare numeri grandi, eseguire divisioni lunghe, problemi che richiedono passi intermedi espliciti.
Ragionamento fisico: domande su causalità fisica concreta, spazio tridimensionale, interazioni tra oggetti.
Consistenza fattuale su testi lunghi: il modello contraddice sé stesso quando la generazione supera certe lunghezze.
Allucinazione fattuale: produce affermazioni false con grande confidenza linguistica, senza segnalare l'incertezza.

Questi limiti non sono stati risolti nei modelli successivi: sono stati ridotti. GPT-4, Claude 3, Gemini Ultra mostrano gli stessi pattern di fallimento di GPT-3, solo in misura minore e su task più difficili.

La decisione di non rilasciare i pesi

Nel febbraio 2019, OpenAI aveva trattenuto GPT-2 citando "preoccupazioni per il potenziale uso improprio nella generazione di disinformazione." Era stata una decisione controversa — la community di ricerca aveva criticato l'opacità — e OpenAI aveva poi rilasciato il modello gradualmente nell'arco di mesi, dopo che nessun disastro si era materializzato.

Con GPT-3, OpenAI non rilascia i pesi pubblicamente: solo API con accesso controllato. La motivazione è simile ma più articolata: rischio di generazione di spam, propaganda, deep fake testuali, impersonificazione. Prima volta esplicita che la decisione di non rilasciare open source è inquadrata come misura di safety precauzionale, non come semplice scelta di business.

La community di ricerca ha reagito con critiche: come si replica la scienza se il modello non è accessibile? Come si studiano le sue failure mode? OpenAI ha risposto che l'accesso API controllato permetteva la ricerca mantenendo la supervisione. Il dibattito open vs. closed source AI inizia formalmente qui, nel maggio 2020, e non si è ancora chiuso.

L'eredità

ChatGPT, lanciato nel novembre 2022, è costruito su GPT-3.5 — addestrato ulteriormente con Reinforcement Learning from Human Feedback (RLHF) a partire da una base GPT-3. Il modello che ha portato l'AI generativa al mainstream globale è direttamente discendente da questo paper del maggio 2020.

Ma l'eredità più importante non è il modello in sé. È il paradigma: costruire modelli grandi addestrati su testo generico, distribuirli come API, lasciare che gli sviluppatori trovino i casi d'uso attraverso il prompting. OpenAI non sapeva esattamente a cosa sarebbe servito GPT-3 quando l'ha pubblicato. Ha lasciato che la community scoprisse le applicazioni, e ha costruito un'azienda sulla base di quel discovery process.

Questo modello di business — fondation model più API più ecosistema di sviluppatori — è oggi lo schema dominante nell'industria AI. Anthropic, Google, Meta, Mistral lo usano tutti, con variazioni. La logica è stata dimostrata per la prima volta da questo paper e dall'API che lo ha seguito.

Link alla fonte originale

arxiv.org/abs/2005.14165 →

Paper 75 pagine, EN. NeurIPS 2020. Accesso API rilasciato in beta estate 2020.