Big Bird a NeurIPS 2020: attention sparsa per sequenze fino a 4096 token

In una frase Google Research presenta Big Bird a NeurIPS 2020, un transformer con attention sparsa (locale + globale + random) che scala linearmente, raggiunge SOTA su QA long-document e summarization e dimostra Turing-completeness.

Verificato Fonte ufficiale

CondividiLinkedIn X

Dopo Longformer e Reformer, anche Google entra nella corsa per modelli che leggono testi lunghissimi. Il loro modello si chiama Big Bird. Combina tre strategie: ogni parola guarda quelle vicine (come Longformer), alcune parole "speciali" guardano tutto, e ogni parola guarda qualche parola scelta a caso.

Il mix sembra strano, ma matematicamente funziona: dimostra che con questa attention sparsa il modello può comunque "approssimare qualsiasi sequenza", come un transformer pieno, pur usando molta meno memoria.

Big Bird viene applicato a problemi reali — domande su articoli scientifici, riassunti di documenti lunghi — battendo i record precedenti.