Qwen, Mistral, Phi: quali modelli locali vale la pena usare nel 2025
Guida ai modelli open source che girano davvero bene in locale: Qwen2.5, Mistral Small, Phi-3. Quale scegliere in base a VRAM disponibile, task e lingua italiana.
Pubblicato: 3 giugno 2025
Non tutti i modelli locali sono uguali. Alcuni sembrano buoni nei benchmark e sono inutili in italiano. Ecco quelli che uso davvero.
Qwen2.5: il migliore per l’italiano
Alibaba ha fatto un lavoro serio sull’italiano con Qwen2.5. Non è marketing — lo vedi subito provandolo su un testo qualsiasi: la grammatica regge, il contesto viene mantenuto, non ti risponde in inglese a metà paragrafo.
Se hai 8GB di VRAM o meno (una RTX 3060 o 4060 tipica), parti da Qwen2.5-7B:
ollama pull qwen2.5:7b
Con 16GB di VRAM passa al 14B, che è notevolmente migliore per summarization lunga e Q&A su documenti:
ollama pull qwen2.5:14b
Se hai un server con GPU serie (A100, due RTX 4090 in NVLink, o simile), il 72B è la scelta — qualità comparabile a GPT-4o su molti task.
Per il codice esiste Qwen2.5-Coder-32B, che è il migliore in open source per completamento e revisione. Serve però GPU con 20+ GB di VRAM oppure CPU con 64GB di RAM (gira, ma lento):
ollama pull qwen2.5-coder:32b
Mistral Small 3.1: il compromesso intelligente
Mistral Small 3.1 da 24B è eccellente se vuoi qualcosa che giri su un Mac M2/M3 con 16GB unificati senza ventola al massimo. Bilingue IT/EN senza configurazioni particolari, ottimo per chat, draft di testo, analisi documenti.
ollama pull mistral-small3.1
Il punto di forza è il rapporto qualità/peso: 24B parametri con quantizzazione Q4 pesano circa 14GB, gestibili su hardware consumer.
Phi-3.5-mini: per chi ha poco hardware
Se stai su CPU, laptop aziendale, o vuoi un modello che risponda in 2 secondi senza GPU, Phi-3.5-mini di Microsoft (3.8B parametri) è la scelta:
ollama pull phi3.5
Non fa miracoli su testi lunghi o ragionamenti complessi, ma per task semplici — rispondere a domande brevi, formattare output, generare snippet — è sorprendentemente capace.
Una nota su Kimi
Kimi k1.5 di Moonshot AI viene spesso citato nelle discussioni sui modelli locali. Chiarisco: non è un modello locale. È un servizio cloud accessibile via web e API, come GPT-4o o Claude. Non si scarica, non gira su Ollama. Puoi usarlo come alternativa ai modelli OpenAI/Anthropic per certi task (ha un context window molto lungo), ma non rientra nel discorso “modello locale in azienda”.
Tabella riassuntiva
| Modello | VRAM min | Lingue | Use case principale | Comando Ollama |
|---|---|---|---|---|
| Qwen2.5-7B | 8GB | IT/EN/ZH+ | Summarization, Q&A, scrittura | ollama pull qwen2.5:7b |
| Qwen2.5-14B | 16GB | IT/EN/ZH+ | Documenti lunghi, analisi | ollama pull qwen2.5:14b |
| Qwen2.5-Coder-32B | 20GB | EN (codice) | Completamento codice | ollama pull qwen2.5-coder:32b |
| Mistral Small 3.1 | 16GB | IT/EN | Chat, drafting, analisi | ollama pull mistral-small3.1 |
| Phi-3.5-mini | CPU ok | EN (IT base) | Task semplici, hardware limitato | ollama pull phi3.5 |
Cosa fare
- Se non sai da dove iniziare, installa Ollama e prova
qwen2.5:7b— è il miglior punto di partenza per uso aziendale in italiano con hardware normale. - Testa sempre il modello sul tuo task specifico prima di decidere: un benchmark generale non dice nulla su come si comporta con i tuoi documenti.
- Se hai un Mac con chip M-series, Mistral Small 3.1 è probabilmente la scelta migliore — sfrutta bene la memoria unificata e non scalda il sistema.