Salta al contenuto
AImpact
IT EN
Alto Generazione immagini & video · 1 min lettura

LLaVA-1.5: vision-language open source che batte i benchmark con pochi dati

In una frase LLaVA-1.5 combina CLIP ViT-L, un MLP projection a due strati e Vicuna per superare 11 benchmark multimodali usando solo 1.2M di dati di fine-tuning.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Insegnare a un modello di linguaggio a "vedere" è complicato: bisogna collegare il mondo visivo con quello testuale in modo che il modello possa rispondere a domande su immagini, descrivere scene o leggere testo in fotografie.

LLaVA-1.5 fa questo in modo sorprendentemente economico: prende un encoder visivo già addestrato (CLIP), lo collega a un LLM testuale (Vicuna) attraverso un piccolo strato di proiezione, e rifinisce il tutto con appena 1.2 milioni di esempi. Niente dataset enormi, niente architetture complesse.

Il risultato è un modello open source che supera sistemi molto più costosi su 11 benchmark standard, dalla risposta visiva a domande fino all'OCR. È diventato una base di riferimento per la ricerca in questo campo.

Aziende

University of Wisconsin-Madison, Microsoft Research

Tool

LLaVA-1.5, CLIP ViT-L, Vicuna

Tag

LLaVAVision-LanguageCLIPVicunaMultimodalVQA

Fonti