Livello di lettura
LLaVA è stato il primo modello open source capace di seguire istruzioni complesse su immagini in modo convincente. Combina un encoder visivo di CLIP con il modello linguistico LLaMA, addestrato su 150mila esempi generati automaticamente da GPT-4. Chiunque poteva scaricarlo, studiarlo e modificarlo. Ha segnato l'inizio del multimodal open source accessibile alla comunità.
Aziende
University of Wisconsin-Madison, Microsoft Research
Tool
LLaVA, CLIP, LLaMA, GPT-4
Tag
LLaVAVisual Instruction TuningOpen SourceCLIPLLaMA
Fonti