Modelli Base Anche noto come: Multimodale

Multimodal

Modello capace di gestire più tipi di input e output insieme: testo, immagini, audio, video. Non solo lettura ma anche generazione di più formati.

CondividiLinkedIn X

In pratica

Claude e GPT-4 leggono immagini, Gemini gestisce video, alcuni modelli parlano in voce. Per chi costruisce prodotti significa poter analizzare foto di scontrini, screenshot, grafici senza un OCR separato. Attenzione: l'input visivo costa più token.

Termini collegati

LLM Foundation model Diffusion model

Visto in azione

30 voci che lo citano

10 giugno 2026

Meta rilascia Llama 4.1: tre modelli MoE open source con finestra da 10 milioni di token

Pietra miliare
5 giugno 2026

Google I/O 2026: Gemini Ultra 3, Project Astra live, Veo 3.2 e contesto da 2 milioni di token

Alto
16 marzo 2026

Mistral Small 4: tre modelli (reasoning + vision + coding) fusi in un solo open weight

Alto
26 febbraio 2026

Nano Banana 2: Google rifà il modello d'immagine virale puntando a coerenza e testo

Medio
16 gennaio 2026

DeepSeek rilascia Janus Pro: un solo modello per capire e generare immagini

Alto
14 gennaio 2026

Gemini 3 Pro e Flash: Google rilancia la sfida frontier

Alto
10 gennaio 2026

Alibaba lancia Qwen2.5-VL 72B: il miglior modello multimodale open source batte GPT-4o

Pietra miliare
18 maggio 2025

Ollama 1.0: prima versione stabile con multimodal, tool calling e Windows GA

Alto
10 maggio 2025

Ollama supporto nativo modelli vision: VLM locali con un comando

Medio
18 aprile 2025

Kimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL

Alto
5 aprile 2025

Llama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza

Alto
18 febbraio 2025

Gemini 2.0 Flash Thinking: ragionamento multimodale con chain-of-thought visivo

Alto
5 febbraio 2025

Gemini 2.0 Flash GA: Google porta il modello veloce e multimodale in produzione

Alto
20 gennaio 2025

SmolVLM2 (HuggingFace): VLM da 2.2B per video e immagini su hardware consumer

Medio
10 gennaio 2025

Gemini 2.0 Flash: multimodale nativo con output audio e immagini

Pietra miliare
11 dicembre 2024

Gemini 2.0 Flash: Google apre 'l'era agentica' e mostra Astra/Mariner/Jules

Pietra miliare
18 novembre 2024

Pixtral: Mistral porta la visione nei modelli open europei

Medio
25 settembre 2024

Llama 3.2: Meta porta visione e edge ai modelli aperti

Alto
25 giugno 2024

Agno (ex Phidata): framework agente leggero, multimodale e 10x più veloce

Medio
6 dicembre 2023

Google Gemini 1.0: multimodale nativo in tre taglie

Pietra miliare

← Tutti i termini