Salta al contenuto
AImpact
IT EN

Articolo · Sintesi di terzi

BERT — Trasformatori Bidirezionali per la Comprensione del Linguaggio

Fonte originale: arxiv.org/abs/1810.04805 — Devlin, Chang, Lee, Toutanova — Google AI Language, ottobre 2018 — sintesi e rielaborazione in parole proprie. Per il testo integrale leggi la fonte originale.

CondividiLinkedInX

Chi è / Cos'è: BERT (Bidirectional Encoder Representations from Transformers) è un modello linguistico pubblicato da Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova del team Google AI Language nell'ottobre 2018. Al momento della pubblicazione ha stabilito nuovi record su 11 task NLP distinti, diventando in pochi mesi il punto di riferimento del settore.

Il problema che BERT ha risolto

Prima di BERT, i modelli linguistici dominanti leggevano il testo in una sola direzione: da sinistra verso destra (come GPT, 2018) oppure concatenavano separatamente una lettura da sinistra e una da destra (come ELMo). Questo approccio unidirezionale ha un limite pratico: quando il modello elabora la parola "banca" nella frase "vado in banca a ritirare dei soldi", non può ancora vedere le parole successive che disambiguano il significato.

La lettura bidirezionale simultanea — leggere ogni token nel contesto di tutti gli altri token sia a sinistra che a destra — era teoricamente ovvia, ma implementarla durante il pre-training creava un problema tecnico: il modello poteva "imbrogliare" semplicemente copiando la risposta dal testo che già vedeva. BERT risolve questo con due strategie di pre-training appositamente progettate.

Le due strategie di pre-training

1. Masked Language Model (MLM)

Il 15% dei token dell'input viene mascherato casualmente con un token speciale [MASK]. Il modello deve predire il token originale usando il contesto bidirezionale completo — quello che viene prima e quello che viene dopo. Questo obiettivo di training costringe il modello a costruire rappresentazioni contestuali profonde di ogni parola.

Il dettaglio implementativo: dell'80% dei token selezionati per il masking, il 10% viene sostituito con un token casuale, e il 10% viene lasciato invariato. Questo impedisce al modello di specializzarsi esclusivamente sul token [MASK] e lo obbliga a mantenere una rappresentazione robusta per tutti i token.

2. Next Sentence Prediction (NSP)

Il modello riceve coppie di frasi e deve predire se la seconda frase segue realmente la prima nel testo originale o è stata estratta casualmente. Questo task addestra BERT a comprendere relazioni inter-frase, capacità necessaria per task come question answering e natural language inference.

Il dataset di pre-training è BooksCorpus (800 milioni di parole) più Wikipedia inglese (2,5 miliardi di parole). Il training richiede 4 giorni su 64 chip TPU v3.

Architettura e dimensioni

BERT usa l'architettura Transformer encoder introdotta da Vaswani et al. nel 2017, ma senza il decoder. Vengono rilasciate due varianti:

  • BERT-Base: 12 layer, 768 dimensioni hidden, 12 attention heads, 110 milioni di parametri
  • BERT-Large: 24 layer, 1024 dimensioni hidden, 16 attention heads, 340 milioni di parametri

Per il 2018, questi numeri rappresentavano modelli di scala inusuale. Nel 2023, appaiono modesti rispetto ai successori: GPT-4 ha probabilmente oltre 1000 miliardi di parametri.

Il fine-tuning: un modello, infiniti task

La proposta centrale di BERT non è solo l'architettura, ma il paradigma pre-train + fine-tune. Si prende il modello pre-addestrato su testo non etichettato (Wikipedia + libri) e lo si adatta a task specifici aggiungendo un piccolo strato di output e addestrando sull'etichetta supervisioned per poche epoche.

Il paper dimostra che questo funziona su task molto diversi tra loro:

  • Classificazione del testo (sentiment, topic) — aggiunge una testa lineare sul token [CLS]
  • NLI / entailment — stessa struttura, label diversa
  • Question answering (SQuAD) — due teste per predire start e end span della risposta
  • Named entity recognition — una testa per ogni token

Prima di BERT, ogni task richiedeva architetture ad hoc. Dopo, basta fine-tuning.

I risultati: 11 benchmark in una volta

Al momento della pubblicazione, BERT stabilisce lo stato dell'arte su tutti i benchmark NLP standard testati:

  • GLUE benchmark: punteggio medio 80.4, superando il precedente record di 7.7 punti
  • MultiNLI: 86.7% di accuratezza
  • SQuAD v1.1: F1 di 93.2, superando per la prima volta le performance umane
  • SQuAD v2.0: F1 di 83.1, record di 5.1 punti sul precedente
  • SWAG: 86.3%, superando il baseline umano

Migliorare un benchmark NLP è normale. Migliorarne 11 contemporaneamente con lo stesso modello e training identico è raro. Questo segnala che BERT ha trovato una rappresentazione del linguaggio fondamentalmente migliore delle alternative precedenti.

L'impatto sulla ricerca successiva

BERT ha aperto una linea di ricerca densa. Nei dodici mesi successivi alla pubblicazione:

  • RoBERTa (Facebook AI, 2019): rimuove NSP, aumenta il batch size e il dataset. Mostra che BERT era significativamente sotto-addestrato.
  • DistilBERT (Hugging Face, 2019): knowledge distillation che produce un modello al 60% della dimensione con il 97% delle performance. Fondamentale per deployment su hardware limitato.
  • ALBERT (Google, 2019): parameter sharing tra layer, riduce memoria mantenendo performance.
  • XLM-RoBERTa (Facebook AI, 2019): BERT multilingue addestrato su 100 lingue.
  • BioBERT, LegalBERT, SciBERT: fine-tuning su domini specializzati.

Il paradigma pre-train + fine-tune introdotto da BERT è lo stesso che governa GPT-3, GPT-4, Claude, Gemini. La differenza principale è che i modelli generativi usano l'architettura decoder invece che encoder, ma la logica di base — addestrare su testo non etichettato a scala, poi adattare — viene direttamente da BERT.

Perché conta

Prima del 2018, NLP era un campo frammentato: ogni task aveva i suoi dataset, le sue metriche, le sue architetture. BERT ha centralizzato il campo attorno a un unico paradigma. Ha dimostrato che la scala del pre-training risolve problemi che l'ingegneria manuale delle feature non riusciva a risolvere. E ha reso le rappresentazioni linguistiche profonde accessibili a chiunque attraverso Hugging Face, dove BERT e i suoi derivati sono stati scaricati miliardi di volte.


Link alla fonte originale

arxiv.org/abs/1810.04805 →

Paper in inglese, 16 pagine, preprint ArXiv ottobre 2018. Pubblicato in forma definitiva a NAACL 2019.