Megatron-LM v2: parallelismo 3D per modelli da 530 miliardi di parametri

In una frase NVIDIA aggiunge pipeline scheduling interleaved e sequence parallelism a Megatron-LM, permettendo di addestrare MT-NLG da 530B parametri su 2240 GPU A100 con Microsoft.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Immagina di dover costruire una cattedrale enorme, ma hai solo mattoni piccoli e tanti operai. La soluzione è dividere il lavoro in tre modi contemporaneamente: ogni operaio lavora su una sezione diversa dell'edificio (pipeline), ogni operaio divide il suo pezzo con un collega accanto (tensor), e gruppi di operai copiano lo stesso schema in parallelo (data). Questo è esattamente quello che fa Megatron-LM v2 con i modelli AI giganti.

Prima di questa versione, addestrare modelli con centinaia di miliardi di parametri richiedeva soluzioni artigianali e spesso instabili. NVIDIA ha formalizzato un approccio chiamato parallelismo 3D: tensor parallelism divide i singoli strati del modello tra GPU, pipeline parallelism divide i blocchi di strati tra gruppi di GPU, e data parallelism replica tutto su più copie. La novità chiave è lo scheduling interleaved per la pipeline, che riduce i tempi morti tra le GPU.

Insieme a Microsoft, NVIDIA ha usato questa tecnica per addestrare MT-NLG, un modello da 530 miliardi di parametri su 2240 GPU A100, dimostrando che la scalabilità era finalmente sistematica. Questo schema è diventato il punto di riferimento per tutti i framework di addestramento di modelli grandi che sono arrivati dopo.