Salta al contenuto
AImpact
IT EN
Alto AI multimodale · 1 min lettura

Pixtral 12B: primo modello multimodal Mistral con encoder visivo nativo

In una frase Mistral debutta nel multimodal con Pixtral 12B: encoder visivo nativo (non CLIP), multi-image e testo-immagine interleaved, licenza Apache 2.0.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Pixtral 12B è il primo modello che capisce immagini rilasciato da Mistral AI. La cosa distintiva è che Mistral ha costruito un proprio encoder visivo da zero invece di usare CLIP come fanno quasi tutti. Supporta più immagini nella stessa conversazione e le immagini possono essere mescolate con il testo in modo libero. È rilasciato con licenza Apache 2.0, quindi completamente libero per uso commerciale.

Aziende

Mistral AI

Tool

Pixtral 12B

Tag

PixtralMistralNative Vision EncoderMulti-ImageApache 2.0Interleaved

Fonti