RETRO: DeepMind anticipa il RAG con il retrieval da 2 trilioni di token
In una frase DeepMind pubblica RETRO, modello da 7B parametri che recupera passaggi rilevanti da un database di 2T token durante l'inferenza, eguagliando le prestazioni di modelli 25x più grandi.
DeepMind propone un'idea diversa dallo "scaling brutale": invece di mettere tutta la conoscenza dentro i parametri del modello, lasciala fuori in un database e fa' che il modello la vada a cercare quando serve.
Il modello si chiama RETRO (Retrieval-Enhanced Transformer). Ha solo 7 miliardi di parametri, ma durante l'inferenza pesca frammenti rilevanti da un database di 2 trilioni di token. Risultato: prestazioni paragonabili a modelli 25 volte più grandi.
È il primo lavoro accademico serio sul retrieval augmentation dei LLM. L'idea diventerà mainstream con il nome RAG (Retrieval-Augmented Generation) un paio d'anni dopo e oggi è dentro praticamente ogni sistema enterprise.
Aziende
DeepMind
Tool
RETRO
Tag
Fonti