Percorso
Sysadmin / DevOps verso l'AI locale
Le tappe per far girare LLM seri sui tuoi server, non sul cloud altrui.
Sei un sysadmin o DevOps e vuoi capire come si è arrivati a poter ospitare modelli di alto livello on-prem. Questo percorso parte dalla leak di LLaMA che ha aperto l'ecosistema open e arriva al reasoning self-hostable di DeepSeek R1 e alle quantizzazioni che lo rendono sostenibile su hardware reale.
- 01
Perché conta per te
La leak che ha innescato tutto l'ecosistema open weight: senza questo evento non avresti né llama.cpp né Ollama oggi.
Alto Modelli open sourceLLaMA: Meta apre la porta dei modelli foundation alla ricerca
Meta pubblica LLaMA in quattro taglie (7B, 13B, 33B, 65B) accessibili su richiesta a ricercatori. Una settimana dopo, i pesi finiscono in leak pubblico.
- 02
Perché conta per te
Prima volta in cui Meta rilascia ufficialmente pesi commercialmente utilizzabili: da qui inizia l'AI on-prem 'legale' in azienda.
Pietra miliare Modelli open sourceLlama 2: i pesi diventano commercialmente usabili
Meta rilascia Llama 2 (7B, 13B, 70B) con licenza che permette uso commerciale fino a 700M utenti attivi. Per la prima volta un LLM serio è davvero deployabile in produzione senza dipendere da un'API.
- 03
Perché conta per te
Dimostra che un 7B europeo può battere modelli molto più grandi: il primo candidato realistico per server con una sola GPU.
Alto Modelli open sourceMistral 7B: l'Europa entra nella partita open-source
Mistral AI (Parigi), startup di tre mesi fondata da ex Meta/DeepMind, rilascia Mistral 7B con licenza Apache 2.0. Batte Llama 2 13B sulla maggior parte dei benchmark con metà dei parametri.
- 04
Perché conta per te
Speech-to-text di livello cloud che gira sul tuo hardware: il modello locale più usato dopo gli LLM testuali.
Alto Voce & audioWhisper open source: la trascrizione audio diventa commodity
OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
- 05
Perché conta per te
Lo stack di riferimento Meta per deploy on-prem: standardizza inferenza, sicurezza e tooling, niente più script artigianali.
Medio Infrastruttura AILlama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM
Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.
- 06
Perché conta per te
Reasoning di livello frontier in pesi aperti: per la prima volta puoi ospitare in casa un modello che ragiona davvero.
Pietra miliare Modelli open sourceDeepSeek-R1: il reasoning open compete con o1 a 1/30 del costo
Startup cinese DeepSeek rilascia R1, modello reasoning con pesi MIT open. Performance pari a OpenAI o1, prezzo API $0.55/$2.19 per 1M token (vs o1 $15/$60). Mercato Nasdaq AI perde $1T in due giorni.
- 07
Perché conta per te
Le quantizzazioni rendono economicamente sensato far girare frontier model su workstation: cambia il TCO della tua sala server.
Medio AI localeQuantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.