⌥

Percorso

Sysadmin / DevOps verso l'AI locale

Le tappe per far girare LLM seri sui tuoi server, non sul cloud altrui.

Sei un sysadmin o DevOps e vuoi capire come si è arrivati a poter ospitare modelli di alto livello on-prem. Questo percorso parte dalla leak di LLaMA che ha aperto l'ecosistema open e arriva al reasoning self-hostable di DeepSeek R1 e alle quantizzazioni che lo rendono sostenibile su hardware reale.

01

Perché conta per te

La leak che ha innescato tutto l'ecosistema open weight: senza questo evento non avresti né llama.cpp né Ollama oggi.

24 febbraio 2023 Alto Modelli open source

LLaMA: Meta apre la porta dei modelli foundation alla ricerca

Meta pubblica LLaMA in quattro taglie (7B, 13B, 33B, 65B) accessibili su richiesta a ricercatori. Una settimana dopo, i pesi finiscono in leak pubblico.
02

Perché conta per te

Prima volta in cui Meta rilascia ufficialmente pesi commercialmente utilizzabili: da qui inizia l'AI on-prem 'legale' in azienda.

18 luglio 2023 Pietra miliare Modelli open source

Llama 2: i pesi diventano commercialmente usabili

Meta rilascia Llama 2 (7B, 13B, 70B) con licenza che permette uso commerciale fino a 700M utenti attivi. Per la prima volta un LLM serio è davvero deployabile in produzione senza dipendere da un'API.
03

Perché conta per te

Dimostra che un 7B europeo può battere modelli molto più grandi: il primo candidato realistico per server con una sola GPU.

27 settembre 2023 Alto Modelli open source

Mistral 7B: l'Europa entra nella partita open-source

Mistral AI (Parigi), startup di tre mesi fondata da ex Meta/DeepMind, rilascia Mistral 7B con licenza Apache 2.0. Batte Llama 2 13B sulla maggior parte dei benchmark con metà dei parametri.
04

Perché conta per te

Speech-to-text di livello cloud che gira sul tuo hardware: il modello locale più usato dopo gli LLM testuali.

21 settembre 2022 Alto Voce & audio

Whisper open source: la trascrizione audio diventa commodity

OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.
05

Perché conta per te

Lo stack di riferimento Meta per deploy on-prem: standardizza inferenza, sicurezza e tooling, niente più script artigianali.

25 settembre 2024 Medio Infrastruttura AI

Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.
06

Perché conta per te

Reasoning di livello frontier in pesi aperti: per la prima volta puoi ospitare in casa un modello che ragiona davvero.

20 gennaio 2025 Pietra miliare Modelli open source

DeepSeek-R1: il reasoning open compete con o1 a 1/30 del costo

Startup cinese DeepSeek rilascia R1, modello reasoning con pesi MIT open. Performance pari a OpenAI o1, prezzo API $0.55/$2.19 per 1M token (vs o1 $15/$60). Mercato Nasdaq AI perde $1T in due giorni.
07

Perché conta per te

Le quantizzazioni rendono economicamente sensato far girare frontier model su workstation: cambia il TCO della tua sala server.

30 aprile 2026 Medio AI locale

Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM

Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.