LLaMA 2 — Meta open-sourca i modelli e cambia le regole

Chi è: Meta AI (Facebook AI Research), laboratorio di ricerca AI di Meta Platforms. LLaMA 1 era stato rilasciato a febbraio 2023 con licenza non commerciale (solo ricerca). LLaMA 2 è rilasciato il 18 luglio 2023 in partnership con Microsoft (disponibile su Azure) con licenza commerciale — chiunque con meno di 700 milioni di utenti mensili può usarlo gratuitamente nei prodotti. Disponibile in varianti 7B, 13B, 34B e 70B parametri.

Il contesto: perché Meta open-sourca i modelli

Meta non ha un prodotto AI consumer diretto competitivo con ChatGPT o Claude. Ha però incentivi enormi a indebolire la posizione di OpenAI e Google: se i modelli open source diventano abbastanza buoni, chi costruisce su di essi non dipende da OpenAI o Google per l'API.

Meta beneficia di un ecosistema open perché riduce il vantaggio dei competitor, genera ricerca esterna che migliora i propri modelli, e costruisce goodwill nella community. Yann LeCun (Chief AI Scientist Meta) crede sinceramente nell'open source come principio — non è solo una mossa strategica, ma una posizione filosofica coerente con anni di dichiarazioni pubbliche. La combinazione di incentivi commerciali e convinzione ideologica rende la scelta di Meta particolarmente stabile: non è una politica che cambierà al prossimo trimestre in base ai risultati finanziari.

LLaMA 1, rilasciato a febbraio 2023, era solo per ricerca — i pesi erano disponibili ma l'uso commerciale era proibito. Nonostante questo, la community aveva già costruito decine di progetti su quella base. LLaMA 2 rimuove la principale barriera: chiunque può usarlo in produzione.

Le caratteristiche tecniche

LLaMA 2 supera LLaMA 1 su quasi tutti i benchmark pubblicati. È stato addestrato su 2 trilioni di token (contro 1,4 trilioni di LLaMA 1), con una context window di 4096 token — il doppio del predecessore. Il modello Llama 2 Chat, ottimizzato con RLHF per la conversazione, compete con GPT-3.5 su molti task. La variante 70B è competitiva con GPT-3.5-turbo su coding, reasoning e knowledge.

Non compete con GPT-4 — questo è chiaro dal paper tecnico stesso, che non nasconde il gap su task di ragionamento complesso. Ma GPT-4 costa ordini di grandezza di più da deployare. Per la maggior parte degli use case aziendali reali — chatbot, classificazione, riassunti, estrazione di dati strutturati — LLaMA 2 70B è sufficiente e il risparmio di costo è enorme.

Il paper tecnico include anche dettagli sui metodi di safety: oltre 1 milione di annotazioni umane, red teaming estensivo, multiple iterazioni di RLHF con focus specifico su helpful e harmless. Meta ha investito risorse significative nel rendere Llama 2 Chat un modello utilizzabile in contesti consumer — non solo un modello base grezzo.

Chi può davvero "open source" 70B parametri

La licenza LLaMA 2 è aperta, ma non è Open Source nel senso tradizionale della Open Source Initiative (OSI). Le restrizioni principali: non è usabile se si hanno più di 700 milioni di utenti mensili (esclude Google, Microsoft consumer, Apple, ma non le startup). Non è usabile per addestrare altri modelli linguistici large-scale. Richiede un credito a Meta nei prodotti che lo usano.

In pratica, per le aziende medio-grandi è un modello commerciale gratuito. Per i ricercatori accademici, l'accesso ai pesi è una svolta genuina: si possono fare esperimenti di interpretabilità, fine-tuning su dataset specializzati, ablation study — cose impossibili con API closed. Per le startup europee che vogliono evitare la dipendenza da cloud USA per ragioni di compliance GDPR o sovranità dei dati, LLaMA 2 è la prima opzione concretamente utilizzabile.

La distinzione tra "open weights" e "open source" diventa rilevante: i pesi sono accessibili, ma i dati di training non sono pubblici, la ricetta di addestramento è parzialmente descritta nel paper ma non riproducibile, e la licenza non è OSI-approved. Questo non riduce il valore pratico, ma è importante per chi vuole costruire su basi veramente open.

L'ecosistema che ha generato

In poche settimane dalla release: quantizzazioni per girare su laptop (llama.cpp di Georgi Gerganov, formato GGUF), fine-tune su dataset custom con metodi efficienti come LoRA e QLoRA che richiedono una singola GPU consumer, varianti specializzate come Code Llama per il codice (settembre 2023), Ollama per il deploy locale su Mac e Linux, LM Studio e Jan per interfacce grafiche consumer.

Il risultato pratico: in sei mesi dal lancio, chiunque con un Mac M2 può girare un modello competitivo con GPT-3.5 localmente, offline, gratuitamente. Il concetto di "AI sovrana" — un sistema AI che gira sul proprio hardware, senza chiamate a server esterni, senza log su cloud di terzi — diventa concreto per la prima volta per utenti non-tecnici.

Questo ha implicazioni anche per la ricerca sulla sicurezza AI: i ricercatori di red teaming possono testare il modello senza limiti di rate, senza rischio di essere bannati per le query, senza dover giustificare ogni test a un'API esterna. Il che ha anche permesso di trovare vulnerabilità più rapidamente — come i ricercatori di sicurezza hanno dimostrato nelle settimane successive.

I rischi dell'apertura

L'apertura dei pesi ha controindicazioni documentate. I pesi base LLaMA 2, senza il fine-tuning safety di Llama 2 Chat, possono essere usati per generare contenuti che ChatGPT e Claude rifiuterebbero sistematicamente. In settimane dalla release, ricercatori di sicurezza hanno dimostrato come ottenere istruzioni per malware, phishing e disinformazione dal modello base non allineato.

La risposta di Meta è articolata su due livelli. Primo: questi contenuti si producono anche senza AI, con ricerche Google, forum, manuali — l'incremento di rischio è reale ma non trasformativo. Secondo: il beneficio aggregato dell'open source — ricerca accelerata, applicazioni positive, riduzione delle barriere all'innovazione — supera i rischi. È la stessa logica che ha guidato la pubblicazione di codice open source per decenni.

Il controargomento dei critici: la velocità con cui un LLM produce contenuti nocivi è qualitativamente diversa da una ricerca manuale, e abbassare questa barriera ha effetti distribuiti difficili da quantificare. Il dibattito rimane aperto — nessuno dei due lati ha dimostrato empiricamente la propria tesi con dati convincenti.

LLaMA 3 e oltre

LLaMA 3 (aprile 2024) supera GPT-3.5 anche sulle varianti più piccole — il modello da 8B parametri è competitivo con modelli che un anno prima avrebbero richiesto decine di miliardi di parametri. LLaMA 3.1 (luglio 2024) introduce la variante 405B — più grande di GPT-3, con una context window di 128K token, e rilasciato con la stessa logica open.

Meta ha chiaramente deciso di escalare il proprio impegno nell'open source AI: a ogni release il gap tra modelli proprietari e open si riduce. L'impatto sul mercato è misurabile: il mercato API di OpenAI e Anthropic è sotto pressione crescente da modelli open che le aziende possono deployare on-premise senza costi variabili.

Per chi sviluppa prodotti AI, la scelta tra "proprietario vs open" è diventata genuinamente competitiva per la prima volta. Nel 2022 questa scelta non esisteva: i modelli open non erano abbastanza buoni. Nel 2024 è una decisione di ingegneria reale, con trade-off chiari su costo, qualità, latenza, privacy e controllo.

Link alla fonte originale

ai.meta.com/llama →

Pesi scaricabili su HuggingFace. Paper tecnico: arxiv.org/abs/2307.09288. EN.