ELECTRA: pre-training NLP più efficiente di BERT

In una frase Clark, Luong, Le e Manning pubblicano ELECTRA a ICLR 2020: invece del masked language modeling, addestra il modello a distinguere token sostituiti da un piccolo generatore, raggiungendo BERT con un quarto del compute.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per costruire un buon modello di linguaggio come BERT serve un addestramento lunghissimo, che brucia tantissima elettricità. Stanford e Google propongono un trucco molto carino per ridurre i tempi.

Invece di nascondere alcune parole e chiedere al modello di indovinarle (come fa BERT), un piccolo modello "trucchino" sostituisce qualche parola con un sinonimo plausibile, e il modello principale deve imparare a riconoscere quali parole sono originali e quali sono state cambiate.

Sembra un dettaglio, ma il segnale di addestramento è molto più denso: il modello impara da ogni token, non solo dal 15% mascherato. Risultato: stessa qualità di BERT, con un quarto del calcolo.