Salta al contenuto
AImpact
IT EN
Modelli Base Anche noto come: Multimodale

Multimodal

Modello capace di gestire più tipi di input e output insieme: testo, immagini, audio, video. Non solo lettura ma anche generazione di più formati.

CondividiLinkedInX

In pratica

Claude e GPT-4 leggono immagini, Gemini gestisce video, alcuni modelli parlano in voce. Per chi costruisce prodotti significa poter analizzare foto di scontrini, screenshot, grafici senza un OCR separato. Attenzione: l'input visivo costa più token.

Termini collegati

Visto in azione

26 voci che lo citano
  1. Mistral Small 4: tre modelli (reasoning + vision + coding) fusi in un solo open weight
    Alto
  2. Nano Banana 2: Google rifà il modello d'immagine virale puntando a coerenza e testo
    Medio
  3. Gemini 3 Pro e Flash: Google rilancia la sfida frontier
    Alto
  4. Ollama 1.0: prima versione stabile con multimodal, tool calling e Windows GA
    Alto
  5. Ollama supporto nativo modelli vision: VLM locali con un comando
    Medio
  6. Kimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL
    Alto
  7. Llama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza
    Alto
  8. Gemini 2.0 Flash Thinking: ragionamento multimodale con chain-of-thought visivo
    Alto
  9. Gemini 2.0 Flash GA: Google porta il modello veloce e multimodale in produzione
    Alto
  10. SmolVLM2 (HuggingFace): VLM da 2.2B per video e immagini su hardware consumer
    Medio
  11. Gemini 2.0 Flash: multimodale nativo con output audio e immagini
    Pietra miliare
  12. Gemini 2.0 Flash: Google apre 'l'era agentica' e mostra Astra/Mariner/Jules
    Pietra miliare
  13. Pixtral: Mistral porta la visione nei modelli open europei
    Medio
  14. Llama 3.2: Meta porta visione e edge ai modelli aperti
    Alto
  15. Agno (ex Phidata): framework agente leggero, multimodale e 10x più veloce
    Medio
  16. Google Gemini 1.0: multimodale nativo in tre taglie
    Pietra miliare
  17. LLaVA-1.5: vision-language open source che batte i benchmark con pochi dati
    Alto
  18. ChatGPT vede, sente e parla: voice + vision in app mobile
    Alto
  19. GPT-4V: ChatGPT impara a vedere (per davvero)
    Alto
  20. SeamlessM4T: il modello universale di Meta per la traduzione vocale in 100+ lingue
    Alto
← Tutti i termini