Alto AI multimodale · 1 min lettura
Pixtral 12B: primo modello multimodal Mistral con encoder visivo nativo
In una frase Mistral debutta nel multimodal con Pixtral 12B: encoder visivo nativo (non CLIP), multi-image e testo-immagine interleaved, licenza Apache 2.0.
Livello di lettura
Pixtral 12B è il primo modello che capisce immagini rilasciato da Mistral AI. La cosa distintiva è che Mistral ha costruito un proprio encoder visivo da zero invece di usare CLIP come fanno quasi tutti. Supporta più immagini nella stessa conversazione e le immagini possono essere mescolate con il testo in modo libero. È rilasciato con licenza Apache 2.0, quindi completamente libero per uso commerciale.
Aziende
Mistral AI
Tool
Pixtral 12B
Tag
PixtralMistralNative Vision EncoderMulti-ImageApache 2.0Interleaved
Fonti