RETRO: DeepMind anticipa il RAG con il retrieval da 2 trilioni di token

In una frase DeepMind pubblica RETRO, modello da 7B parametri che recupera passaggi rilevanti da un database di 2T token durante l'inferenza, eguagliando le prestazioni di modelli 25x più grandi.

Verificato Fonte ufficiale

CondividiLinkedIn X

DeepMind propone un'idea diversa dallo "scaling brutale": invece di mettere tutta la conoscenza dentro i parametri del modello, lasciala fuori in un database e fa' che il modello la vada a cercare quando serve.

Il modello si chiama RETRO (Retrieval-Enhanced Transformer). Ha solo 7 miliardi di parametri, ma durante l'inferenza pesca frammenti rilevanti da un database di 2 trilioni di token. Risultato: prestazioni paragonabili a modelli 25 volte più grandi.

È il primo lavoro accademico serio sul retrieval augmentation dei LLM. L'idea diventerà mainstream con il nome RAG (Retrieval-Augmented Generation) un paio d'anni dopo e oggi è dentro praticamente ogni sistema enterprise.