In pratica
Claude e GPT-4 leggono immagini, Gemini gestisce video, alcuni modelli parlano in voce. Per chi costruisce prodotti significa poter analizzare foto di scontrini, screenshot, grafici senza un OCR separato. Attenzione: l'input visivo costa più token.
Termini collegati
Visto in azione
26 voci che lo citano- AltoMistral Small 4: tre modelli (reasoning + vision + coding) fusi in un solo open weight
- MedioNano Banana 2: Google rifà il modello d'immagine virale puntando a coerenza e testo
- AltoGemini 3 Pro e Flash: Google rilancia la sfida frontier
- AltoOllama 1.0: prima versione stabile con multimodal, tool calling e Windows GA
- MedioOllama supporto nativo modelli vision: VLM locali con un comando
- AltoKimi VL Thinking (Moonshot AI): primo modello visivo open con ragionamento a catena di pensiero via RL
- AltoLlama 4: Meta passa a MoE e multimodale nativo, ma la community accoglie con freddezza
- AltoGemini 2.0 Flash Thinking: ragionamento multimodale con chain-of-thought visivo
- AltoGemini 2.0 Flash GA: Google porta il modello veloce e multimodale in produzione
- MedioSmolVLM2 (HuggingFace): VLM da 2.2B per video e immagini su hardware consumer
- Pietra miliareGemini 2.0 Flash: multimodale nativo con output audio e immagini
- Pietra miliareGemini 2.0 Flash: Google apre 'l'era agentica' e mostra Astra/Mariner/Jules
- MedioPixtral: Mistral porta la visione nei modelli open europei
- AltoLlama 3.2: Meta porta visione e edge ai modelli aperti
- MedioAgno (ex Phidata): framework agente leggero, multimodale e 10x più veloce
- Pietra miliareGoogle Gemini 1.0: multimodale nativo in tre taglie
- AltoLLaVA-1.5: vision-language open source che batte i benchmark con pochi dati
- AltoChatGPT vede, sente e parla: voice + vision in app mobile
- AltoGPT-4V: ChatGPT impara a vedere (per davvero)
- AltoSeamlessM4T: il modello universale di Meta per la traduzione vocale in 100+ lingue