Alto AI multimodale · 1 min lettura
Molmo: il VLM open weight che supera GPT-4V nel pointing
In una frase Allen AI rilascia Molmo, VLM open weight full-pipeline con capacità di pointing preciso su oggetti in immagini, superando GPT-4V su benchmark di grounding visivo.
Livello di lettura
La maggior parte dei VLM sa descrivere cosa c'è in un'immagine, ma non sa indicare esattamente dove si trova qualcosa. Molmo risolve questo problema: se gli chiedi "indica il bicchiere sul tavolo" risponde puntando con coordinate precise sull'immagine. Allen AI ha reso pubblico non solo il modello ma anche il dataset PixMo usato per addestrarlo, creato con descrizioni vocali dettagliate raccolte da essere umani. Questo approccio "full open pipeline" è raro e prezioso per la ricerca.
Aziende
Allen Institute for AI
Tool
Molmo, Molmo-7B, Molmo-72B, PixMo
Tag
VLMOpen SourcePointingGroundingOpen Pipeline
Fonti