17 settembre 2024 Alto AI multimodale · 1 min lettura

Molmo: il VLM open weight che supera GPT-4V nel pointing

In una frase Allen AI rilascia Molmo, VLM open weight full-pipeline con capacità di pointing preciso su oggetti in immagini, superando GPT-4V su benchmark di grounding visivo.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

La maggior parte dei VLM sa descrivere cosa c'è in un'immagine, ma non sa indicare esattamente dove si trova qualcosa. Molmo risolve questo problema: se gli chiedi "indica il bicchiere sul tavolo" risponde puntando con coordinate precise sull'immagine. Allen AI ha reso pubblico non solo il modello ma anche il dataset PixMo usato per addestrarlo, creato con descrizioni vocali dettagliate raccolte da essere umani. Questo approccio "full open pipeline" è raro e prezioso per la ricerca.

Aziende

Allen Institute for AI

Tool

Molmo, Molmo-7B, Molmo-72B, PixMo

Tag

VLMOpen SourcePointingGroundingOpen Pipeline

Fonti

https://molmo.allenai.org/