LLaVA-1.5: vision-language open source che batte i benchmark con pochi dati
In una frase LLaVA-1.5 combina CLIP ViT-L, un MLP projection a due strati e Vicuna per superare 11 benchmark multimodali usando solo 1.2M di dati di fine-tuning.
Insegnare a un modello di linguaggio a "vedere" è complicato: bisogna collegare il mondo visivo con quello testuale in modo che il modello possa rispondere a domande su immagini, descrivere scene o leggere testo in fotografie.
LLaVA-1.5 fa questo in modo sorprendentemente economico: prende un encoder visivo già addestrato (CLIP), lo collega a un LLM testuale (Vicuna) attraverso un piccolo strato di proiezione, e rifinisce il tutto con appena 1.2 milioni di esempi. Niente dataset enormi, niente architetture complesse.
Il risultato è un modello open source che supera sistemi molto più costosi su 11 benchmark standard, dalla risposta visiva a domande fino all'OCR. È diventato una base di riferimento per la ricerca in questo campo.
Aziende
University of Wisconsin-Madison, Microsoft Research
Tool
LLaVA-1.5, CLIP ViT-L, Vicuna
Tag
Fonti