Ollama supporto nativo modelli vision: VLM locali con un comando

In una frase Ollama aggiunge supporto multimodale first-class: 'ollama run llama3.2-vision' avvia inferenza visiva locale. Le immagini vengono passate inline nelle chiamate API. Porta l'esperienza one-line di Ollama ai VLM (LLaVA, Moondream, Llama 3.2 Vision).

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Fino a questo momento, Ollama aveva reso semplicissimo usare modelli di testo in locale — un comando e il modello era pronto. Ma i modelli "vision" (quelli capaci di analizzare immagini) richiedevano configurazioni separate, librerie diverse, e procedure più complesse. Ollama ha risolto questo gap estendendo la propria semplicità anche al mondo dei modelli multimodali.

Ora, con lo stesso approccio di sempre — un comando, un modello — si può chiedere a un'AI locale di guardare un'immagine e descriverla, rispondere a domande su una foto, analizzare un grafico, o leggere testo da uno screenshot. Tutto senza inviare nulla a internet, senza chiavi API, senza servizi cloud.

"Analizza questa fattura" o "cosa c'è scritto in questa foto del documento?" sono ora casi d'uso realizzabili con due righe di codice e un modello locale. Per applicazioni che trattano documenti, immagini mediche, screenshot o qualsiasi contenuto visivo sensibile, avere vision AI completamente locale e privata è un cambiamento di scenario concreto.