Come usare LLM locali: guida pratica con Ollama

Ollama è tipo Docker ma per modelli AI. Un comando e hai un LLM che gira in locale. Nessun dato esce dalla tua rete, nessun abbonamento, nessun contatore di token che scorre.

Tre motivi concreti per farlo: se hai NDA con clienti o lavori in ambito healthcare/legale, mandare testo a OpenAI è un problema — qui non esce niente. Se stai costruendo automazioni che processano documenti tutto il giorno, GPT-4o a $2,50 per milione di token fa male. E se sei su una rete air-gapped o in viaggio senza internet, il modello locale non se ne accorge.

Installazione: tre comandi

Linux / macOS:

curl -fsSL https://ollama.com/install.sh | sh
ollama pull llama3.1:8b
ollama run llama3.1:8b

Windows: scarica l’installer da ollama.com/download, poi usa PowerShell normalmente. Stessi comandi pull e run.

Sei dentro una chat testuale. Ctrl+D o /bye per uscire. ollama list per vedere i modelli scaricati, ollama rm mistral:7b per rimuoverne uno.

Hardware: cosa aspettarti davvero

CPU-only (niente GPU): funziona. Lento. Su Ryzen 5 o Core i5 recente con 32GB RAM aspetta 5-10 token al secondo su un 7B. Abbastanza per uso interattivo sporadico, non per batch pesanti.

GPU con 8-12GB VRAM: qui cambia tutto. Una RTX 3060 da 12GB fa girare un 7B a 50+ token al secondo. Un M2 Pro Apple con 32GB di unified memory è una macchina seria — la memoria è sia RAM che VRAM.

Regola pratica per la VRAM: modello 7B → almeno 6GB in quantizzazione Q4, meglio 8GB. Modello 14B → almeno 12-16GB. Il modello vive interamente in VRAM quando disponibile, altrimenti spilla su RAM di sistema (molto più lento).

Quale modello scegliere

Non esiste il migliore in assoluto. Dipende dall’hardware e dall’uso.

llama3.1:8b — bilanciato, buon italiano, veloce. Punto di partenza se hai una GPU da 8GB+.

qwen2.5:7b — eccellente per codice e multilingua, dimensioni simili a Llama 3. Prova con ollama pull qwen2.5:7b. Anche qwen2.5:14b se hai 16GB VRAM: qualità notevolmente superiore.

mistral:7b — ottimo per istruzione e codice, molto veloce, italiano un po’ scarso.

phi3:mini — leggerissimo (~2GB), funziona su CPU debole o hardware limitato. Contesto corto e ragionamento limitato, ma se hai una macchina vecchia è quello che gira.

Per i task aziendali standard — riassunti, analisi testi, generazione script, code review — un 7-8B è più che sufficiente.

Interfaccia web e API

Se vuoi dare accesso ai colleghi non tecnici, Open WebUI è la soluzione standard: assomiglia a ChatGPT, selezioni il modello dal menu, salvi le conversazioni, puoi caricare PDF con RAG integrato.

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Apri http://localhost:3000. Se Ollama gira su un server separato (es. 192.168.1.50), aggiungi -e OLLAMA_BASE_URL=http://192.168.1.50:11434 e tutti i colleghi usano la stessa istanza con la GPU, senza installare niente sui loro PC.

Ollama espone anche un’API REST compatibile con la specifica OpenAI. Qualsiasi codice scritto per OpenAI funziona cambiando solo l’endpoint:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
    model="llama3.1:8b",
    messages=[{"role": "user", "content": "Analizza questo log di errore: ..."}]
)

Zero dati del codice aziendale verso API esterne.

Cosa fare

Installa Ollama sul tuo PC o su un server con GPU libera, scarica llama3.1:8b o qwen2.5:7b e fai una prova da terminale
Avvia Open WebUI in Docker e dailo a un collega per raccogliere feedback su un caso d’uso concreto: analisi log, code review, Q&A su documentazione interna
Se ti serve più qualità, prova qwen2.5:14b su hardware con 16GB VRAM prima di scalare su modelli 70B che richiedono GPU da 48GB+