30 maggio 2024 Alto AI multimodale · 1 min lettura

Microsoft Phi-3 Vision: 4.2B parametri multimodal su dispositivi edge

In una frase Microsoft porta il multimodal sull'edge con Phi-3 Vision: 4.2B parametri, context 128k token, performance competitive con modelli 10x più grandi su benchmark visivi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Phi-3 Vision è un modello di Microsoft che capisce testo e immagini insieme, ma con una caratteristica speciale: è piccolo abbastanza da girare su smartphone e laptop senza connessione cloud. Con solo 4.2 miliardi di parametri riesce a gestire documenti molto lunghi (fino a 128mila parole) e a ragionare su immagini. Supera modelli dieci volte più grandi su molti test, dimostrando che la qualità dei dati di addestramento conta più della dimensione.

Aziende

Microsoft

Tool

Phi-3 Vision, Azure

Tag

Phi-3Edge AISmall Language ModelMicrosoft128K ContextVision

Fonti

https://azure.microsoft.com/blog/phi-3-vision/