Salta al contenuto
AImpact
IT EN
Alto AI multimodale · 1 min lettura

InstructBLIP: instruction tuning visivo su 26 dataset batte GPT-4V

In una frase Salesforce estende BLIP-2 con instruction tuning visivo su 26 dataset: benchmark superiori a GPT-4V su visual reasoning con architettura open.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

InstructBLIP è un'evoluzione di BLIP-2 pensata per seguire istruzioni in linguaggio naturale su immagini. È stato addestrato su 26 dataset diversi di comprensione visiva, rendendolo generalista e robusto. Al momento del rilascio, superava GPT-4V su molti test di ragionamento visivo pur essendo un modello open source. Ha dimostrato che la quantità e varietà dei dati di instruction tuning conta quanto l'architettura.

Aziende

Salesforce

Tool

InstructBLIP, BLIP-2, Q-Former

Tag

InstructBLIPInstruction TuningVisual ReasoningSalesforceVQA

Fonti