GPT-4 Technical Report — OpenAI

Chi è: OpenAI, organizzazione fondata nel 2015 come non-profit, poi ristrutturata come "capped profit." Il GPT-4 Technical Report è stato pubblicato il 15 marzo 2023 — stesso giorno del lancio di GPT-4 via API. Il paper è insolito: contiene meno dettagli tecnici di quasi qualsiasi paper accademico di pari impatto. OpenAI ha scelto deliberatamente di non rivelare architettura, numero di parametri, dati di training. "For competitive reasons."

Cosa il report rivela

Il GPT-4 Technical Report è un documento di 98 pagine che sceglie accuratamente cosa mostrare. Quello che mostra è comunque significativo. GPT-4 è il primo modello OpenAI ad essere ufficialmente multimodale: accetta sia testo che immagini come input — un'immagine di un frigo con ingredienti e la domanda "cosa posso cucinare?" — anche se al lancio questa capacità era disponibile solo per partner selezionati, non via API pubblica.

I risultati sui benchmark professionali sono la parte più citata del report e rappresentano uno dei dati empirici più chiari sul salto qualitativo rispetto alle generazioni precedenti. Sul BAR Exam (l'esame per l'abilitazione forense negli USA): GPT-4 al 90° percentile. Sul LSAT (ammissione alle law school): 88° percentile. Sul SAT Reading: 93° percentile. Sul SAT Math: 89° percentile. Sul GRE Verbal: 99° percentile. Sul GRE Quantitative: 80° percentile. Sul benchmark MMLU (Massive Multitask Language Understanding, 57 discipline accademiche): 86.4%. Su HumanEval (coding, problemi Python): 67%. Questi numeri sono comparativi rispetto a GPT-3.5, che su questi stessi test era sistematicamente più basso, spesso di 20-30 punti percentile.

Cosa il report non rivela

La lista di quello che il report omette è altrettanto informativa della lista di quello che contiene. Numero di parametri: non rivelato. Le stime esterne, basate su indizi architetturali e comportamentali, suggeriscono una Mixture of Experts (MoE) con ~1.8 trilioni di parametri totali e ~200 miliardi attivi per inferenza — ma OpenAI non conferma né smentisce. Dataset di training: non rivelato nei dettagli. Si sa che include CommonCrawl, libri digitali, Wikipedia, codice da GitHub, e dati da partnership con editori, ma le proporzioni e i criteri di selezione non sono pubblici.

Architettura specifica: non rivelata oltre "transformer con RLHF." Compute usato per training: non rivelato. Stime esterne: probabilmente tra $50M e $100M di costi computazionali al cambio attuale. Costo di training: non rivelato. Confronti diretti con sistemi concorrenti (Claude, PaLM 2, Gemini precursori): assenti o minimizzati. La scelta è esplicita e dichiarata: "For competitive reasons and the safety implications of large models, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method, or similar." Il paper è tecnicamente onesto su ciò che mostra. Ma non mostra quasi nulla di ciò che interesserebbe ai ricercatori che vogliono capire il funzionamento del sistema.

Il salto di qualità rispetto a GPT-3.5

Il dato più importante del report non è un singolo benchmark ma il delta rispetto alla generazione precedente. GPT-3.5 al BAR Exam era al 10° percentile — peggio del 90% degli esseri umani che danno quell'esame. GPT-4 è al 90° percentile — meglio del 90%. Questo non è un miglioramento incrementale nella stessa direzione: è un cambio qualitativo. Lo stesso pattern appare su LSAT, SAT, GRE: da prestazioni mediocri o nella norma bassa a prestazioni nella norma alta o eccellente.

Il professore di Wharton Ethan Mollick ha definito questo pattern il "jagged frontier": i modelli AI hanno un confine di competenza frastagliato, non uniforme. GPT-4 eccelle in aree dove GPT-3.5 falliva — ragionamento strutturato multi-step, comprensione di testi tecnici complessi, coerenza su lunghi contesti, pianificazione di argomenti — ma mantiene punti ciechi e fallisce in aree dove ci si aspetterebbe facilità. Il report documenta onestamente questi fallimenti: GPT-4 commette errori "confidenti" in matematica elementare in certi contesti, sbaglia su task di ragionamento spaziale, e può essere distratto da premise false inserite nel contesto. La jagged frontier è la caratteristica strutturale più importante per chi usa questi sistemi in produzione: devi testare empiricamente ogni task specifico, non generalizzare dai benchmark.

La sezione sulla safety

Il report dedica una sezione sostanziale alla safety, che è sia la parte più importante sia quella più difficile da valutare. OpenAI descrive il processo di RLHF (Reinforcement Learning from Human Feedback) con feedback da contractor specializzati su policy di contenuto, e il processo di red teaming: gruppi di esperti interni ed esterni hanno tentato sistematicamente di far produrre al modello output pericolosi, in oltre 50 domini di rischio categorizzati (CBRN, CSAM, disinformazione, cybersecurity, bias, etc.).

Le mitigazioni pre-deploy hanno ridotto significativamente la frequenza di comportamenti problematici rispetto a GPT-3.5 grezzo. Il modello rifiuta richieste esplicite di aiuto per creare armi, materiale illegale, o contenuto che danneggerebbe persone identificabili. Ma la sezione è vaga sulle metriche concrete: "i red teamers hanno trovato miglioramenti significativi" senza numeri specifici di riduzione, senza benchmark di safety comparabili tra modelli, senza definizioni operative di "pericoloso." Questa vaghezza non è necessariamente mala fede — definire metriche di safety è genuinamente difficile — ma rende la sezione meno verificabile di quanto sembrerebbe. La community accademica ha criticato proprio questo: pubblicare una safety section non equivale a pubblicare safety research.

Il contesto del momento

Marzo 2023 è uno dei mesi più densi nella storia recente dell'AI. Il 15 marzo: lancio di GPT-4 via API. Il 22 marzo: la Future of Life Institute pubblica la lettera aperta "Pause Giant AI Experiments" firmata da Musk, Yoshua Bengio, Stuart Russell e altri — chiedendo una moratoria di sei mesi su sistemi più capaci di GPT-4. Il 29 marzo: Eliezer Yudkowsky pubblica su Time un articolo intitolato "Pausing AI Developments Isn't Enough. We Need to Shut It All Down" — una posizione molto più radicale. Nel mezzo di questo contesto, OpenAI ha scelto di essere trasparente sulle capability (guardate quanto è capace GPT-4) ma opaca sull'architettura (ma non vi diciamo come funziona dentro).

Questa scelta ha irritato la comunità accademica per ragioni precise: un paper che non rivela architettura, dati, compute non è replicabile, non è verificabile in modo indipendente, non contribuisce al knowledge scientifico collettivo. È un report di prodotto, non un paper di ricerca. OpenAI ha risposto che rivelare l'architettura di GPT-4 avrebbe aiutato attori mal intenzionati a replicare le capability pericolose. La contro-argomentazione: quei dettagli arrivano comunque, tramite reverse engineering e leak. La vera motivazione, suggeriscono i critici, è proteggersi dalla competizione di Google, Anthropic, e Meta — non proteggere il mondo. Il dibattito è ancora aperto.

Cosa si impara leggendolo

Il GPT-4 Technical Report è un documento che si deve leggere per capire l'AI contemporanea — non perché sia un paper scientifico rigoroso, ma perché è il documento politico più influente del settore AI nel 2023. Leggendolo impari: come OpenAI vuole essere percepita (capace e responsabile), dove sono i limiti effettivi del modello (documentati con più onestà di quanto ci si aspetti), e cosa manca nella comunicazione scientifica dell'AI commerciale.

Per chi usa GPT-4 o sistemi equivalenti in produzione, la sezione sui benchmark professionali è il riferimento più utile: ti dice su quali task il modello è affidabile (testi legali, ragionamento accademico strutturato, comprensione di codice documentato), su quali è mediocre (matematica avanzata, ragionamento spaziale, contesti molto lunghi con dettagli distribuiti), e su quali è inaffidabile in modo non ovvio (task che sembrano semplici ma richiedono senso comune fisico). Il "jagged frontier" non si vede dai benchmark aggregati: si vede testando empiricamente il proprio caso d'uso. Il report ti dà abbastanza informazioni per sapere da dove iniziare a testare.

Link alla fonte originale

arxiv.org/abs/2303.08774 →

Paper tecnico su arXiv, ~98 pagine, EN. Lettura tecnica.