3 ottobre 2024 Alto AI multimodale · 1 min lettura

Pixtral 12B: primo modello multimodal Mistral con encoder visivo nativo

In una frase Mistral debutta nel multimodal con Pixtral 12B: encoder visivo nativo (non CLIP), multi-image e testo-immagine interleaved, licenza Apache 2.0.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Pixtral 12B è il primo modello che capisce immagini rilasciato da Mistral AI. La cosa distintiva è che Mistral ha costruito un proprio encoder visivo da zero invece di usare CLIP come fanno quasi tutti. Supporta più immagini nella stessa conversazione e le immagini possono essere mescolate con il testo in modo libero. È rilasciato con licenza Apache 2.0, quindi completamente libero per uso commerciale.

Aziende

Mistral AI

Tool

Pixtral 12B

Tag

PixtralMistralNative Vision EncoderMulti-ImageApache 2.0Interleaved

Fonti

https://mistral.ai/news/pixtral-12b/