20 aprile 2023 Alto AI multimodale · 1 min lettura

LLaVA: Visual Instruction Tuning apre il multimodal open source

In una frase LLaVA combina CLIP + LLaMA con 150k esempi generati da GPT-4 per creare il primo assistente visivo open source di qualità.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

LLaVA è stato il primo modello open source capace di seguire istruzioni complesse su immagini in modo convincente. Combina un encoder visivo di CLIP con il modello linguistico LLaMA, addestrato su 150mila esempi generati automaticamente da GPT-4. Chiunque poteva scaricarlo, studiarlo e modificarlo. Ha segnato l'inizio del multimodal open source accessibile alla comunità.

Aziende

University of Wisconsin-Madison, Microsoft Research

Tool

LLaVA, CLIP, LLaMA, GPT-4

Tag

LLaVAVisual Instruction TuningOpen SourceCLIPLLaMA

Fonti

https://llava-vl.github.io