Phi-3-Vision-128K (Microsoft): VLM da 4.2B che batte modelli 4x più grandi su documenti

In una frase Microsoft rilascia Phi-3-Vision-128K: 4.2 miliardi di parametri, contesto da 128k token, comprensione di grafici e diagrammi, document Q&A. Supera modelli da 13-20B su benchmark di document understanding. Il miglior VLM compatto per deployment edge e inferenza enterprise cost-sensitive.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Nella corsa ai modelli AI sempre più grandi, Microsoft ha scelto una direzione diversa: costruire un modello visivo piccolo ma straordinariamente bravo nelle cose che le aziende usano davvero.

Phi-3-Vision-128K ha solo 4.2 miliardi di parametri — una frazione di GPT-4 Vision o Gemini Ultra. Eppure nei test su comprensione di documenti, grafici e diagrammi tecnici, batte modelli tre o quattro volte più grandi.

Il trucco è nella selezione dei dati di training: invece di usare tutto ciò che è disponibile su internet, il team di Microsoft Research ha curato un dataset molto denso di documenti aziendali, grafici, tabelle, screenshot di software, diagrammi tecnici. Il modello è diventato molto bravo proprio nelle cose che servono in azienda.

La finestra di 128.000 token di contesto — enormemente grande per un modello così piccolo — permette di caricare documenti interi e fare domande su di essi senza perdere informazioni.

Il vantaggio pratico: Phi-3-Vision può girare su hardware moderato, anche in deployment on-premise o in edge computing, con costi di inferenza molto inferiori rispetto ai modelli grandi. Per un'azienda che vuole analizzare automaticamente migliaia di contratti o report, la differenza di costo è enorme.