Megatron-Turing NLG 530B: Microsoft e NVIDIA scalano il dense oltre GPT-3
In una frase Microsoft e NVIDIA annunciano MT-NLG, modello dense da 530B parametri addestrato con DeepSpeed e Megatron-LM, all'epoca il più grande dense LM mai prodotto.
Microsoft e NVIDIA mostrano il muscolo congiunto: pubblicano Megatron-Turing NLG 530B, un modello di linguaggio "dense" (non sparso) da 530 miliardi di parametri. Tre volte più grande di GPT-3.
Lo hanno addestrato su un supercomputer NVIDIA Selene con migliaia di GPU A100. Microsoft ci mette il software (DeepSpeed), NVIDIA il sistema (Megatron-LM + hardware).
Non viene rilasciato al pubblico — è una dimostrazione che si può ancora scalare dense oltre i numeri di OpenAI. È anche l'inizio dell'asse Microsoft-NVIDIA sul training di frontier models, che vedremo crescere con Azure ND-H100 cluster e oltre.
Aziende
Microsoft, NVIDIA
Tool
Megatron-Turing NLG 530B
Tag
Fonti
- https://developer.nvidia.com/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/
- https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/