30 gennaio 2023 Alto AI multimodale · 1 min lettura

BLIP-2: il Q-Former come ponte tra vision e linguaggio

In una frase Salesforce introduce BLIP-2: un modulo Q-Former leggero connette encoder visivo e LLM congelati, SOTA su captioning con 8x meno parametri trainabili.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

BLIP-2 è un sistema di Salesforce che collega un encoder di immagini e un grande modello linguistico usando un componente intermedio chiamato Q-Former. La parte interessante è che sia il modello visivo che quello testuale restano "congelati" — solo il Q-Former viene addestrato. Questo riduce enormemente i costi di training. Il risultato supera i modelli precedenti nella descrizione di immagini usando molti meno parametri da aggiornare.

Aziende

Salesforce

Tool

BLIP-2, Q-Former

Tag

BLIP-2Q-FormerImage CaptioningSalesforceEfficient Training

Fonti

https://arxiv.org/abs/2301.12597