LLaMA 1 — Come Meta ha (Accidentalmente) Democratizzato i LLM

Cos'è: LLaMA (Large Language Model Meta AI) è la famiglia di modelli linguistici rilasciata da Meta AI nel febbraio 2023. La versione originale include quattro taglie: 7B, 13B, 33B e 65B parametri. Progettata per la ricerca accademica e rilasciata tramite accesso controllato, viene leakato su 4chan in meno di una settimana dal lancio. Quello che segue è la più rapida espansione dell'ecosistema open-source AI della storia.

Il rilascio: solo per ricercatori accademici

Il 24 febbraio 2023 Meta AI pubblica il paper "LLaMA: Open and Efficient Foundation Language Models" (Touvron et al.) e annuncia la disponibilità dei pesi del modello tramite un form di richiesta. Per accedere bisogna essere affiliati a un'istituzione accademica o di ricerca, spiegare l'uso previsto, e ottenere l'approvazione di Meta. La licenza è esplicitamente non commerciale.

L'idea alla base è ricercabile e sensata: rendere disponibile un modello competitivo alla comunità scientifica — che non ha accesso all'API di OpenAI o alle risorse computazionali di Google — per favorire la ricerca su sicurezza, bias, interpretabilità. LLaMA 65B, secondo il paper, è competitivo con GPT-3 su molti benchmark, pur essendo stato addestrato con meno compute grazie a ottimizzazioni nell'efficienza del training.

Il leak: meno di una settimana

Il 3 marzo 2023 — meno di una settimana dopo il rilascio — un utente anonimo posta su 4chan un link magnet torrent con i pesi completi di tutti e quattro i modelli LLaMA. Il file viene rapidamente ridistribuito su The Pirate Bay, Hugging Face (da cui Meta li rimuove, ma il mirror è già ovunque), e canali Telegram. In 24 ore, chiunque con una connessione a internet può scaricare i pesi completi di un modello linguistico di livello GPT-3.

Meta non ha mai identificato pubblicamente la fonte del leak. Non ha intrapreso azioni legali significative contro chi distribuiva i pesi. Non ha cambiato in modo sostanziale la propria strategia di rilascio nel breve termine. Questa relativa inazione è stata interpretata da molti osservatori come tacita accettazione: Meta aveva da guadagnare dall'ecosistema open-source che si stava formando intorno al proprio modello.

L'esplosione dell'ecosistema: da Alpaca a Vicuna

Le settimane successive al leak sono tra le più dense di innovazione nella storia recente dell'AI open source. In rapida successione:

Alpaca (Stanford, 13 marzo 2023): fine-tuning di LLaMA 7B su 52.000 instruction-following examples generati da ChatGPT con un costo di circa $600. Il risultato: un modello che segue istruzioni in modo competitivo con GPT-3.5 per molti task, eseguibile su hardware consumer. Stanford lo rilascia come ricerca accademica.
Vicuna (UC Berkeley / CMU / UCSD, marzo 2023): fine-tuning su ~70.000 conversazioni ChatGPT condivise da utenti su ShareGPT. Secondo i benchmark del team, Vicuna 13B raggiunge il 90% della qualità di ChatGPT e GPT-4 su molti task.
Koala (UC Berkeley, aprile 2023): fine-tuning su conversazioni reali di dialogo, con attenzione alla qualità dei dati di training.
WizardLM (Microsoft Research, aprile 2023): approccio Evol-Instruct per generare dati di training sempre più complessi, producendo un modello particolarmente forte sul ragionamento.
OpenLLaMA (OpenLM Research, maggio 2023): replica open dei pesi LLaMA addestrata su dataset completamente aperti, eliminando le restrizioni di licenza.

In meno di tre mesi dal leak, l'ecosistema ha prodotto decine di modelli fine-tuned, strumenti di inferenza ottimizzata (llama.cpp, che permette di eseguire LLaMA su CPU senza GPU), interfacce chat, e integrazioni in framework come LangChain.

llama.cpp: LLM su CPU, anche su MacBook

L'innovazione tecnica più impattante dell'ecosistema LLaMA non è un nuovo modello ma uno strumento di inferenza: llama.cpp, sviluppato da Georgi Gerganov e rilasciato l'11 marzo 2023 — otto giorni dopo il leak. llama.cpp implementa LLaMA in C++ puro con quantizzazione a 4 bit, permettendo di eseguire il modello 7B su un MacBook Air con 8GB di RAM — senza GPU, senza cloud, senza API key.

Questo cambia radicalmente il pubblico potenziale. Non servono più GPU NVIDIA con decine di GB di VRAM. Chiunque con un laptop moderno può eseguire un LLM localmente. La latenza è accettabile per uso interattivo. La privacy è totale: nessun dato lascia il dispositivo. Per ricercatori in paesi senza cloud access, per aziende con dati sensibili, per sviluppatori che vogliono sperimentare senza costi API, llama.cpp è stato trasformativo.

LLaMA 2: questa volta intenzionalmente open

Il 18 luglio 2023, sette mesi dopo il leak di LLaMA 1, Meta rilascia LLaMA 2 — questa volta con una strategia radicalmente diversa. I pesi sono liberamente disponibili per uso commerciale (con restrizioni per piattaforme sopra 700 milioni di utenti attivi mensili). Il rilascio include versioni base e versioni instruction-tuned (Llama 2 Chat). Microsoft è partner nel rilascio — un segnale del valore strategico che Meta attribuisce all'ecosistema.

Poi nel 2024 arriva LLaMA 3 (aprile 2024): 8B e 70B parametri, con un modello 405B in seguito. LLaMA 3 70B raggiunge prestazioni competitive con GPT-3.5 Turbo su Chatbot Arena. Il circolo si chiude: il modello leakato per errore nel 2023 ha generato un ecosistema che ha spinto Meta a investire massicciamente nell'open source, trasformandola nel principale sponsor dell'AI open.

L'impatto sulla democratizzazione: chi ha beneficiato

Il termine "democratizzazione" viene usato spesso in modo generico. Nel caso di LLaMA è utile specificare chi ha concretamente beneficiato dell'ecosistema che è emerso dal leak:

Ricercatori accademici senza budget per API commerciali: possono ora fare ricerca su sicurezza, bias, allineamento usando modelli comparabili a GPT-3.5.
Ricercatori in paesi in via di sviluppo con accesso limitato ai servizi cloud USA: possono eseguire modelli localmente su hardware economico.
Sviluppatori indipendenti: possono costruire applicazioni basate su LLM senza dipendere da API di terzi e senza costi variabili imprevedibili.
Aziende con requisiti di privacy: possono processare dati sensibili localmente senza inviarli a server terzi.
La comunità di sicurezza AI: può studiare i comportamenti dei modelli con accesso diretto ai pesi, impossibile con i modelli closed-source.

La contropartita: anche i modelli open possono essere fine-tuned per rimuovere i guardrail di sicurezza. Il dibattito tra i vantaggi della trasparenza e i rischi della disponibilità senza restrizioni è aperto — e il leak di LLaMA 1 ne ha reso l'esito irrilevante, almeno per i modelli di quella generazione.

Link alla fonte originale

ai.meta.com — LLaMA blog post →

Post ufficiale Meta AI sul rilascio di LLaMA 1. Paper su arXiv: 2302.13971 (Touvron et al.). Il modello è ora superato da LLaMA 2 e LLaMA 3, disponibili su llama.meta.com. EN.