Alto AI multimodale · 1 min lettura
Microsoft Phi-3 Vision: 4.2B parametri multimodal su dispositivi edge
In una frase Microsoft porta il multimodal sull'edge con Phi-3 Vision: 4.2B parametri, context 128k token, performance competitive con modelli 10x più grandi su benchmark visivi.
Livello di lettura
Phi-3 Vision è un modello di Microsoft che capisce testo e immagini insieme, ma con una caratteristica speciale: è piccolo abbastanza da girare su smartphone e laptop senza connessione cloud. Con solo 4.2 miliardi di parametri riesce a gestire documenti molto lunghi (fino a 128mila parole) e a ragionare su immagini. Supera modelli dieci volte più grandi su molti test, dimostrando che la qualità dei dati di addestramento conta più della dimensione.
Aziende
Microsoft
Tool
Phi-3 Vision, Azure
Tag
Phi-3Edge AISmall Language ModelMicrosoft128K ContextVision
Fonti