Salta al contenuto
AImpact
IT EN
Medio Modelli foundation · 1 min lettura

ELECTRA: pre-training NLP più efficiente di BERT

In una frase Clark, Luong, Le e Manning pubblicano ELECTRA a ICLR 2020: invece del masked language modeling, addestra il modello a distinguere token sostituiti da un piccolo generatore, raggiungendo BERT con un quarto del compute.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Per costruire un buon modello di linguaggio come BERT serve un addestramento lunghissimo, che brucia tantissima elettricità. Stanford e Google propongono un trucco molto carino per ridurre i tempi.

Invece di nascondere alcune parole e chiedere al modello di indovinarle (come fa BERT), un piccolo modello "trucchino" sostituisce qualche parola con un sinonimo plausibile, e il modello principale deve imparare a riconoscere quali parole sono originali e quali sono state cambiate.

Sembra un dettaglio, ma il segnale di addestramento è molto più denso: il modello impara da ogni token, non solo dal 15% mascherato. Risultato: stessa qualità di BERT, con un quarto del calcolo.

Aziende

Google, Stanford

Tool

ELECTRA

Tag

GoogleStanfordELECTRAPre-trainingBERT

Fonti