Livello di lettura
BLIP-2 è un sistema di Salesforce che collega un encoder di immagini e un grande modello linguistico usando un componente intermedio chiamato Q-Former. La parte interessante è che sia il modello visivo che quello testuale restano "congelati" — solo il Q-Former viene addestrato. Questo riduce enormemente i costi di training. Il risultato supera i modelli precedenti nella descrizione di immagini usando molti meno parametri da aggiornare.
Aziende
Salesforce
Tool
BLIP-2, Q-Former
Tag
BLIP-2Q-FormerImage CaptioningSalesforceEfficient Training
Fonti