Qwen, Mistral, Phi: quali modelli locali vale la pena usare nel 2025

Non tutti i modelli locali sono uguali. Alcuni sembrano buoni nei benchmark e sono inutili in italiano. Ecco quelli che uso davvero.

Qwen2.5: il migliore per l’italiano

Alibaba ha fatto un lavoro serio sull’italiano con Qwen2.5. Non è marketing — lo vedi subito provandolo su un testo qualsiasi: la grammatica regge, il contesto viene mantenuto, non ti risponde in inglese a metà paragrafo.

Se hai 8GB di VRAM o meno (una RTX 3060 o 4060 tipica), parti da Qwen2.5-7B:

ollama pull qwen2.5:7b

Con 16GB di VRAM passa al 14B, che è notevolmente migliore per summarization lunga e Q&A su documenti:

ollama pull qwen2.5:14b

Se hai un server con GPU serie (A100, due RTX 4090 in NVLink, o simile), il 72B è la scelta — qualità comparabile a GPT-4o su molti task.

Per il codice esiste Qwen2.5-Coder-32B, che è il migliore in open source per completamento e revisione. Serve però GPU con 20+ GB di VRAM oppure CPU con 64GB di RAM (gira, ma lento):

ollama pull qwen2.5-coder:32b

Mistral Small 3.1: il compromesso intelligente

Mistral Small 3.1 da 24B è eccellente se vuoi qualcosa che giri su un Mac M2/M3 con 16GB unificati senza ventola al massimo. Bilingue IT/EN senza configurazioni particolari, ottimo per chat, draft di testo, analisi documenti.

ollama pull mistral-small3.1

Il punto di forza è il rapporto qualità/peso: 24B parametri con quantizzazione Q4 pesano circa 14GB, gestibili su hardware consumer.

Phi-3.5-mini: per chi ha poco hardware

Se stai su CPU, laptop aziendale, o vuoi un modello che risponda in 2 secondi senza GPU, Phi-3.5-mini di Microsoft (3.8B parametri) è la scelta:

ollama pull phi3.5

Non fa miracoli su testi lunghi o ragionamenti complessi, ma per task semplici — rispondere a domande brevi, formattare output, generare snippet — è sorprendentemente capace.

Una nota su Kimi

Kimi k1.5 di Moonshot AI viene spesso citato nelle discussioni sui modelli locali. Chiarisco: non è un modello locale. È un servizio cloud accessibile via web e API, come GPT-4o o Claude. Non si scarica, non gira su Ollama. Puoi usarlo come alternativa ai modelli OpenAI/Anthropic per certi task (ha un context window molto lungo), ma non rientra nel discorso “modello locale in azienda”.

Tabella riassuntiva

Modello	VRAM min	Lingue	Use case principale	Comando Ollama
Qwen2.5-7B	8GB	IT/EN/ZH+	Summarization, Q&A, scrittura	`ollama pull qwen2.5:7b`
Qwen2.5-14B	16GB	IT/EN/ZH+	Documenti lunghi, analisi	`ollama pull qwen2.5:14b`
Qwen2.5-Coder-32B	20GB	EN (codice)	Completamento codice	`ollama pull qwen2.5-coder:32b`
Mistral Small 3.1	16GB	IT/EN	Chat, drafting, analisi	`ollama pull mistral-small3.1`
Phi-3.5-mini	CPU ok	EN (IT base)	Task semplici, hardware limitato	`ollama pull phi3.5`

Cosa fare

Se non sai da dove iniziare, installa Ollama e prova qwen2.5:7b — è il miglior punto di partenza per uso aziendale in italiano con hardware normale.
Testa sempre il modello sul tuo task specifico prima di decidere: un benchmark generale non dice nulla su come si comporta con i tuoi documenti.
Se hai un Mac con chip M-series, Mistral Small 3.1 è probabilmente la scelta migliore — sfrutta bene la memoria unificata e non scalda il sistema.