Longformer: sliding-window attention per documenti lunghi

In una frase Allen Institute for AI rilascia Longformer, un transformer che combina sliding-window attention locale e attention globale su token speciali, scalando linearmente fino a 4096 token e battendo RoBERTa su task long-document.

Verificato Fonte ufficiale

CondividiLinkedIn X

I modelli come BERT possono leggere al massimo qualche centinaio di parole. Se vuoi che leggano un articolo, un contratto o un PDF intero, devi spezzettarli, perdendo contesto.

Allen Institute presenta Longformer, una variante che cambia il modo di guardare le parole. Invece di confrontare ogni parola con tutte le altre, ne confronta solo poche vicine (una finestra che scorre), più qualche "punto chiave" che guarda tutto il testo.

Risultato: lo stesso BERT può ora leggere documenti di 4000 parole o più, mantenendo le prestazioni. È uno dei primi modelli pratici per QA, riassunto e classificazione su documenti veri.