OLMo — Allen AI Rilascia il Primo LLM Veramente Open (Pesi + Dati + Codice)

Cos'è: OLMo (Open Language Model) è il primo grande modello di linguaggio in cui ogni componente del processo di costruzione è pubblico e riutilizzabile. Allen AI — l'istituto di ricerca senza scopo di lucro fondato da Paul Allen a Seattle — ha rilasciato OLMo 7B a febbraio 2024 e OLMo 2 13B a novembre 2024. Oltre ai pesi del modello, sono pubblici il dataset di training (Dolma, 3 trilioni di token), il codice completo di training, i checkpoint intermedi a intervalli regolari durante il training, e perfino i log di Weights & Biases dell'intero run. È il primo LLM in cui un ricercatore esterno può riprodurre ogni decisione di addestramento con un livello di dettaglio paragonabile a quello dei team interni.

Il problema dell'apertura parziale

Nel 2023-2024 la parola "open" è diventata polisemica nel mondo LLM, e la confusione era largamente strumentale. Quando Meta rilascia Llama 2 con "open weights", significa che i pesi del modello sono scaricabili sotto licenza permissiva. Ma il dataset usato per addestrare il modello è privato; il codice di training è proprietario; le decisioni di iperparametri, le ricette di filtraggio dei dati, i checkpoint intermedi sono interni. Un ricercatore esterno può usare Llama, può fare fine-tuning, ma non può capire come Llama è diventato Llama — e quindi non può rifare lo stesso processo per costruire qualcosa di simile in modo indipendente.

La stessa cosa, in misura diversa, vale per Mistral, DeepSeek, Qwen e quasi tutti i "modelli open" del 2023. L'apertura dei pesi è importante — consente fine-tuning, deployment, sperimentazione — ma non è apertura scientifica nel senso tradizionale del termine. Un paper accademico in fisica o biologia descrive il metodo abbastanza precisamente da permettere la replica indipendente. I paper di Llama 2, Mistral, DeepSeek descrivono i metodi in modo che approssima la replica, ma lasciano fuori i dettagli critici (composizione esatta del dataset, regole di filtraggio, hyperparameter schedule) che farebbero la differenza.

OLMo nasce per colmare questa lacuna. La mission di Allen AI è esplicitamente accademica: "enable scientific research on large language models", e il modo per farlo è rilasciare tutto.

Dolma: il dataset di 3 trilioni di token

Il rilascio di Dolma, il dataset di training, è la parte più ambiziosa del progetto OLMo. Dolma è un corpus da 3 trilioni di token costruito da fonti pubbliche: dump del web (Common Crawl filtrato), Wikipedia, libri di pubblico dominio, codice da repository pubblici, paper scientifici, conversazioni Reddit. Ma non è solo "il web". Allen AI ha documentato in dettaglio ogni passo della pipeline di costruzione.

I filtri di qualità sono documentati riga per riga: come vengono identificate e rimosse pagine di bassa qualità, come vengono deduplicati i documenti, come vengono trattati i contenuti potenzialmente dannosi, come vengono bilanciate le lingue. Le decisioni di mixing — quanta percentuale del corpus è web, quanta è codice, quanta è scientifica — sono esplicite e ragionate. Il codice della pipeline è pubblico, quindi un ricercatore può applicare gli stessi filtri a un nuovo dump web e ottenere risultati confrontabili.

Questo livello di trasparenza ha un valore pratico immediato: per la prima volta è possibile studiare empiricamente domande come "cosa succede al modello se aumento la proporzione di codice nel mix?" o "come cambiano le capacità multilingue se filtro più aggressivamente lo spam?". Senza accesso al dataset originale, queste domande potevano solo essere speculate sui modelli closed.

Checkpoint intermedi e log di training

Un aspetto innovativo del rilascio OLMo sono i checkpoint intermedi. Allen AI non pubblica solo il modello finale ma decine di checkpoint salvati a intervalli regolari durante il training — ogni 1000 step, ogni 10000 step, in punti chiave del processo. Questo permette di studiare empiricamente fenomeni che sono al centro della ricerca attuale: quando emergono certe capacità durante il training? In quale momento il modello "impara" l'aritmetica multi-cifra? Quando inizia a generalizzare oltre i pattern memorizzati?

I log di Weights & Biases — la piattaforma di tracking degli esperimenti — sono pubblici. Ogni training run di Allen AI ha la sua dashboard accessibile a chiunque: loss curves, gradient norms, learning rate schedule, throughput delle GPU, anomalie incontrate. Vedere i log reali di un training run da 3T token è formativo in un modo che nessun paper può sostituire. Si vede dove il training ha avuto problemi (loss spikes, divergence), come sono stati risolti (rollback a checkpoint precedente, riduzione del learning rate), quali esperimenti laterali sono stati provati e abbandonati.

Performance: pari Llama 2, sotto i frontier

OLMo 7B (febbraio 2024) ha performance grossomodo paragonabili a Llama 2 7B su benchmark standard come MMLU, ARC, HellaSwag, ScienceQA. OLMo 2 13B (novembre 2024) si avvicina alle performance di Llama 3 8B e Mistral 7B. Non è un modello frontier — non compete con GPT-4 o Claude — ma è competitivo nella sua classe di scala.

La differenza importante: mentre Llama, Mistral e DeepSeek pubblicano numeri ma non permettono di riprodurli, i numeri di OLMo sono verificabili da chiunque abbia GPU sufficienti. Un ricercatore può scaricare Dolma, lanciare il codice di training, ottenere lo stesso modello dei checkpoint pubblicati, confrontare benchmark. Questa proprietà — replicability completa — non esisteva nel campo LLM prima di OLMo, e cambia il significato di "stato dell'arte".

L'analogia che Allen AI propone esplicitamente è con il momento in cui la comunità del software ha distinto tra "freeware" e "open source": entrambi sono gratis da usare, ma solo il secondo permette studio, modifica e ridistribuzione. OLMo è il primo "open source LLM" nel senso pieno del termine, mentre Llama e simili sono più simili a "freeware LLM" — gratuiti ma non studiabili in profondità.

Riconoscimenti dal resto del campo

Diversi laboratori frontier hanno riconosciuto pubblicamente il valore del lavoro di Allen AI sulla data transparency. Anthropic ha citato Dolma come riferimento metodologico in suoi paper successivi. Google DeepMind ha rilasciato successivamente più dettagli sui propri dataset Gemma in parte sotto pressione del precedente OLMo. Anche le organizzazioni regolatorie (EU AI Act, NIST) hanno iniziato a chiedere ai grandi laboratori livelli di documentazione del dataset più simili a quelli di Allen AI che a quelli storici di OpenAI o Meta.

Il riconoscimento ha anche una dimensione strategica: in un campo in cui la differenziazione tra modelli proprietari è spesso questione di pochi punti percentuali sui benchmark, l'apertura completa diventa un valore di mercato. Università, governi e aziende sensibili alla compliance preferiscono modelli di cui possono auditare la provenienza dei dati e il processo di costruzione. OLMo non è il modello più performante, ma è in molti contesti il modello più responsabilmente deployabile.

I limiti di OLMo e la prospettiva di Allen AI

OLMo ha limiti pratici da non sottovalutare. La performance assoluta è dietro i modelli frontier, e probabilmente lo resterà: Allen AI non ha la stessa capacità di compute o di reclutamento di OpenAI, Anthropic, Google, Meta. Il modello è ottimo per ricerca ma non sempre la scelta migliore per applicazioni di produzione che richiedono massima qualità.

La prospettiva esplicita di Allen AI è proprio questa: il loro obiettivo non è competere sul prodotto, è abilitare la scienza. Se altre aziende usano la metodologia OLMo per costruire modelli migliori e più trasparenti, l'obiettivo è raggiunto. La separazione tra "laboratori di prodotto" (che competono sui modelli più capaci) e "laboratori di ricerca" (che producono conoscenza utilizzabile da tutti) è un modello che Allen AI sta cercando di consolidare — e che potrebbe diventare un riferimento importante per come il campo si organizza nei prossimi anni.

Link alla fonte originale

allenai.org/olmo — OLMo: Open Language Model →

Sito ufficiale Allen AI. EN. Include link al paper tecnico, repository GitHub, download Dolma e dashboard W&B. Il paper accademico è su arXiv: 2402.00838 (OLMo 1) e 2501.00656 (OLMo 2).