ELECTRA: pre-training NLP più efficiente di BERT
In una frase Clark, Luong, Le e Manning pubblicano ELECTRA a ICLR 2020: invece del masked language modeling, addestra il modello a distinguere token sostituiti da un piccolo generatore, raggiungendo BERT con un quarto del compute.
Per costruire un buon modello di linguaggio come BERT serve un addestramento lunghissimo, che brucia tantissima elettricità. Stanford e Google propongono un trucco molto carino per ridurre i tempi.
Invece di nascondere alcune parole e chiedere al modello di indovinarle (come fa BERT), un piccolo modello "trucchino" sostituisce qualche parola con un sinonimo plausibile, e il modello principale deve imparare a riconoscere quali parole sono originali e quali sono state cambiate.
Sembra un dettaglio, ma il segnale di addestramento è molto più denso: il modello impara da ogni token, non solo dal 15% mascherato. Risultato: stessa qualità di BERT, con un quarto del calcolo.
Aziende
Google, Stanford
Tool
ELECTRA
Tag
Fonti