Salta al contenuto
AImpact
IT EN
Medio Modelli foundation · 1 min lettura

Microsoft Turing-NLG: 17B parametri e nasce DeepSpeed

In una frase Microsoft Research presenta Turing-NLG, il modello linguistico più grande mai annunciato (17B), reso possibile dall'ottimizzatore DeepSpeed/ZeRO che taglia drasticamente la memoria GPU richiesta.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Per addestrare modelli sempre più grandi servono sempre più memoria GPU, ma le GPU non crescono altrettanto velocemente. Microsoft mostra una soluzione: distribuire il modello su molte GPU in modo intelligente, così nessuna deve tenere tutto.

Con questa tecnica costruiscono Turing-NLG, il modello linguistico più grande del momento: 17 miliardi di parametri, dieci volte più grande di GPT-2. Sa generare riassunti, rispondere a domande e scrivere testo coerente per pagine intere.

Il lavoro non interessa solo Microsoft: la libreria che lo rende possibile, DeepSpeed, diventa open source e abilita anche altri ricercatori ad addestrare modelli giganti.

Aziende

Microsoft

Tool

Turing-NLG, DeepSpeed

Tag

MicrosoftTuring-NLGLarge Language ModelsDeepSpeedZeRO

Fonti