Microsoft Turing-NLG: 17B parametri e nasce DeepSpeed
In una frase Microsoft Research presenta Turing-NLG, il modello linguistico più grande mai annunciato (17B), reso possibile dall'ottimizzatore DeepSpeed/ZeRO che taglia drasticamente la memoria GPU richiesta.
Per addestrare modelli sempre più grandi servono sempre più memoria GPU, ma le GPU non crescono altrettanto velocemente. Microsoft mostra una soluzione: distribuire il modello su molte GPU in modo intelligente, così nessuna deve tenere tutto.
Con questa tecnica costruiscono Turing-NLG, il modello linguistico più grande del momento: 17 miliardi di parametri, dieci volte più grande di GPT-2. Sa generare riassunti, rispondere a domande e scrivere testo coerente per pagine intere.
Il lavoro non interessa solo Microsoft: la libreria che lo rende possibile, DeepSpeed, diventa open source e abilita anche altri ricercatori ad addestrare modelli giganti.
Aziende
Microsoft
Tool
Turing-NLG, DeepSpeed
Tag
Fonti