Pixtral: Mistral porta la visione nei modelli open europei

In una frase Mistral rilascia Pixtral 12B (settembre, Apache 2.0) e Pixtral Large 124B (novembre): primi modelli multimodali europei competitivi. Forte attenzione su document understanding e OCR.

Verificato Fonte ufficiale

CondividiLinkedIn X

Mistral, la startup francese che fa modelli aperti competitivi, entra nel multimodale. Prima rilascia Pixtral 12B a settembre 2024 (con licenza Apache 2.0, davvero libero), poi a novembre tira fuori Pixtral Large da 124 miliardi di parametri.

Cosa fa: gli mostri una foto, un documento scannerizzato, uno screenshot, un grafico, e gli fai domande. Riconosce testo (OCR), capisce diagrammi tecnici, legge ricevute, descrive scene.

Punto importante: è uno dei primi modelli vision open che si può scaricare e usare in EU senza vincoli di licenza politica, e che è competitivo con Llama 3.2 vision e Claude 3 Haiku su benchmark documentali. Per use case enterprise europei (banche, P.A., legal) che non possono spedire dati a OpenAI o Anthropic, diventa un'opzione concreta.