Salta al contenuto
AImpact
IT EN
Infrastruttura AI 5 min di lettura

Qwen, Mistral, Phi: quali modelli locali vale la pena usare nel 2025

Guida ai modelli open source che girano davvero bene in locale: Qwen2.5, Mistral Small, Phi-3. Quale scegliere in base a VRAM disponibile, task e lingua italiana.

Pubblicato: 3 giugno 2025

Non tutti i modelli locali sono uguali. Alcuni sembrano buoni nei benchmark e sono inutili in italiano. Ecco quelli che uso davvero.

Qwen2.5: il migliore per l’italiano

Alibaba ha fatto un lavoro serio sull’italiano con Qwen2.5. Non è marketing — lo vedi subito provandolo su un testo qualsiasi: la grammatica regge, il contesto viene mantenuto, non ti risponde in inglese a metà paragrafo.

Se hai 8GB di VRAM o meno (una RTX 3060 o 4060 tipica), parti da Qwen2.5-7B:

ollama pull qwen2.5:7b

Con 16GB di VRAM passa al 14B, che è notevolmente migliore per summarization lunga e Q&A su documenti:

ollama pull qwen2.5:14b

Se hai un server con GPU serie (A100, due RTX 4090 in NVLink, o simile), il 72B è la scelta — qualità comparabile a GPT-4o su molti task.

Per il codice esiste Qwen2.5-Coder-32B, che è il migliore in open source per completamento e revisione. Serve però GPU con 20+ GB di VRAM oppure CPU con 64GB di RAM (gira, ma lento):

ollama pull qwen2.5-coder:32b

Mistral Small 3.1: il compromesso intelligente

Mistral Small 3.1 da 24B è eccellente se vuoi qualcosa che giri su un Mac M2/M3 con 16GB unificati senza ventola al massimo. Bilingue IT/EN senza configurazioni particolari, ottimo per chat, draft di testo, analisi documenti.

ollama pull mistral-small3.1

Il punto di forza è il rapporto qualità/peso: 24B parametri con quantizzazione Q4 pesano circa 14GB, gestibili su hardware consumer.

Phi-3.5-mini: per chi ha poco hardware

Se stai su CPU, laptop aziendale, o vuoi un modello che risponda in 2 secondi senza GPU, Phi-3.5-mini di Microsoft (3.8B parametri) è la scelta:

ollama pull phi3.5

Non fa miracoli su testi lunghi o ragionamenti complessi, ma per task semplici — rispondere a domande brevi, formattare output, generare snippet — è sorprendentemente capace.

Una nota su Kimi

Kimi k1.5 di Moonshot AI viene spesso citato nelle discussioni sui modelli locali. Chiarisco: non è un modello locale. È un servizio cloud accessibile via web e API, come GPT-4o o Claude. Non si scarica, non gira su Ollama. Puoi usarlo come alternativa ai modelli OpenAI/Anthropic per certi task (ha un context window molto lungo), ma non rientra nel discorso “modello locale in azienda”.

Tabella riassuntiva

ModelloVRAM minLingueUse case principaleComando Ollama
Qwen2.5-7B8GBIT/EN/ZH+Summarization, Q&A, scritturaollama pull qwen2.5:7b
Qwen2.5-14B16GBIT/EN/ZH+Documenti lunghi, analisiollama pull qwen2.5:14b
Qwen2.5-Coder-32B20GBEN (codice)Completamento codiceollama pull qwen2.5-coder:32b
Mistral Small 3.116GBIT/ENChat, drafting, analisiollama pull mistral-small3.1
Phi-3.5-miniCPU okEN (IT base)Task semplici, hardware limitatoollama pull phi3.5

Cosa fare

  • Se non sai da dove iniziare, installa Ollama e prova qwen2.5:7b — è il miglior punto di partenza per uso aziendale in italiano con hardware normale.
  • Testa sempre il modello sul tuo task specifico prima di decidere: un benchmark generale non dice nulla su come si comporta con i tuoi documenti.
  • Se hai un Mac con chip M-series, Mistral Small 3.1 è probabilmente la scelta migliore — sfrutta bene la memoria unificata e non scalda il sistema.