Salta al contenuto
AImpact
IT EN
← Percorsi

Percorso

Sysadmin / DevOps verso l'AI locale

Le tappe per far girare LLM seri sui tuoi server, non sul cloud altrui.

Sei un sysadmin o DevOps e vuoi capire come si è arrivati a poter ospitare modelli di alto livello on-prem. Questo percorso parte dalla leak di LLaMA che ha aperto l'ecosistema open e arriva al reasoning self-hostable di DeepSeek R1 e alle quantizzazioni che lo rendono sostenibile su hardware reale.

  1. 01

    Perché conta per te

    La leak che ha innescato tutto l'ecosistema open weight: senza questo evento non avresti né llama.cpp né Ollama oggi.

    Alto Modelli open source

    LLaMA: Meta apre la porta dei modelli foundation alla ricerca

    Meta pubblica LLaMA in quattro taglie (7B, 13B, 33B, 65B) accessibili su richiesta a ricercatori. Una settimana dopo, i pesi finiscono in leak pubblico.

  2. 02

    Perché conta per te

    Prima volta in cui Meta rilascia ufficialmente pesi commercialmente utilizzabili: da qui inizia l'AI on-prem 'legale' in azienda.

    Pietra miliare Modelli open source

    Llama 2: i pesi diventano commercialmente usabili

    Meta rilascia Llama 2 (7B, 13B, 70B) con licenza che permette uso commerciale fino a 700M utenti attivi. Per la prima volta un LLM serio è davvero deployabile in produzione senza dipendere da un'API.

  3. 03

    Perché conta per te

    Dimostra che un 7B europeo può battere modelli molto più grandi: il primo candidato realistico per server con una sola GPU.

    Alto Modelli open source

    Mistral 7B: l'Europa entra nella partita open-source

    Mistral AI (Parigi), startup di tre mesi fondata da ex Meta/DeepMind, rilascia Mistral 7B con licenza Apache 2.0. Batte Llama 2 13B sulla maggior parte dei benchmark con metà dei parametri.

  4. 04

    Perché conta per te

    Speech-to-text di livello cloud che gira sul tuo hardware: il modello locale più usato dopo gli LLM testuali.

    Alto Voce & audio

    Whisper open source: la trascrizione audio diventa commodity

    OpenAI rilascia Whisper sotto licenza MIT: modello speech-to-text addestrato su 680.000 ore di audio multilingue, qualità vicina allo stato dell'arte commerciale, gira in locale.

  5. 05

    Perché conta per te

    Lo stack di riferimento Meta per deploy on-prem: standardizza inferenza, sicurezza e tooling, niente più script artigianali.

    Medio Infrastruttura AI

    Llama Stack: Meta propone una specifica API unificata per il ciclo di vita LLM

    Meta annuncia Llama Stack: specifica API + reference implementations per inference, safety, agents, memory, evals, RAG e training — pensata come 'plumbing standard' per applicazioni Llama-based.

  6. 06

    Perché conta per te

    Reasoning di livello frontier in pesi aperti: per la prima volta puoi ospitare in casa un modello che ragiona davvero.

    Pietra miliare Modelli open source

    DeepSeek-R1: il reasoning open compete con o1 a 1/30 del costo

    Startup cinese DeepSeek rilascia R1, modello reasoning con pesi MIT open. Performance pari a OpenAI o1, prezzo API $0.55/$2.19 per 1M token (vs o1 $15/$60). Mercato Nasdaq AI perde $1T in due giorni.

  7. 07

    Perché conta per te

    Le quantizzazioni rendono economicamente sensato far girare frontier model su workstation: cambia il TCO della tua sala server.

    Medio AI locale

    Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM

    Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.