Reformer: il transformer che gestisce sequenze lunghissime

In una frase Google Research presenta Reformer, una variante del transformer che usa LSH attention e reversible layers per scendere da O(n²) a O(n log n) e gestire sequenze fino a 64k token.

Verificato Fonte ufficiale

CondividiLinkedIn X

I transformer classici, come quelli dietro GPT-2 o BERT, hanno un problema: più lungo è il testo da leggere, più la memoria e il calcolo crescono in modo esplosivo. Per leggere un intero libro servirebbero hardware da data center.

Google mostra una tecnica per risolvere questo collo di bottiglia: invece di confrontare ogni parola con tutte le altre, il modello raggruppa quelle "simili" usando una funzione di hashing, e fa il confronto solo dentro ai gruppi.

Risultato: lo stesso transformer riesce a leggere sequenze molto più lunghe usando meno memoria. È un primo passo verso modelli che capiscono interi documenti, non solo paragrafi.