OLMo 2: modello pienamente aperto che supera Llama 3.1 mantenendo la trasparenza
In una frase AllenAI rilascia OLMo 2 a 7B e 13B con staged mid-training e data mixing specializzato, superando Llama 3.1 e Qwen 2.5 sull'instruction following pur mantenendo completa trasparenza su dati, codice e checkpoint.
Il primo OLMo del 2024 era un modello completamente aperto, ma non era il più capace della sua categoria. AllenAI ha corretto il tiro con OLMo 2: questa volta non solo la massima trasparenza possibile, ma anche prestazioni competitive con i migliori modelli open del momento.
La novità principale è il modo in cui è stato addestrato: invece di un singolo lungo addestramento su tutti i dati, OLMo 2 viene addestrato in fasi, con diversi mix di dati specifici per ciascuna fase. È come imparare prima le basi e poi specializzarsi progressivamente, piuttosto che mescolare tutto insieme dall'inizio.
Il risultato è un modello che su certi test di comprensione e seguire istruzioni supera modelli come Llama 3.1 di Meta e Qwen 2.5 di Alibaba — e tutto con dati, codice e checkpoint completamente pubblici.
Aziende
AllenAI
Tool
—
Tag
Fonti