Megatron-Turing NLG 530B: Microsoft e NVIDIA scalano il dense oltre GPT-3

In una frase Microsoft e NVIDIA annunciano MT-NLG, modello dense da 530B parametri addestrato con DeepSpeed e Megatron-LM, all'epoca il più grande dense LM mai prodotto.

Verificato Fonte ufficiale

CondividiLinkedIn X

Microsoft e NVIDIA mostrano il muscolo congiunto: pubblicano Megatron-Turing NLG 530B, un modello di linguaggio "dense" (non sparso) da 530 miliardi di parametri. Tre volte più grande di GPT-3.

Lo hanno addestrato su un supercomputer NVIDIA Selene con migliaia di GPU A100. Microsoft ci mette il software (DeepSpeed), NVIDIA il sistema (Megatron-LM + hardware).

Non viene rilasciato al pubblico — è una dimostrazione che si può ancora scalare dense oltre i numeri di OpenAI. È anche l'inizio dell'asse Microsoft-NVIDIA sul training di frontier models, che vedremo crescere con Azure ND-H100 cluster e oltre.