DeepSpeed ZeRO-3: training di modelli oltre 100 miliardi di parametri

In una frase Microsoft annuncia ZeRO Stage 3 in DeepSpeed: shardando anche i parametri tra le GPU, oltre a gradienti e stati ottimizzatore, abilita training di modelli da 100B+ parametri su cluster di taglia ragionevole.

Verificato Fonte ufficiale

CondividiLinkedIn X

Per allenare un modello AI grande servono tantissime GPU. Il problema è che ogni GPU deve tenere in memoria una copia del modello, e i modelli moderni non ci stanno più: 100 miliardi di parametri non entrano in una singola scheda.

Microsoft aveva già introdotto una tecnica per distribuire alcuni dati tra le GPU; ora fa il salto definitivo distribuendo anche i pesi stessi del modello. Ogni GPU tiene solo una "fetta" e prende le altre fette al volo quando servono.

Il risultato pratico: con un cluster di poche centinaia di GPU si può addestrare un modello che prima richiedeva un supercomputer dedicato. Diventa la libreria open source di riferimento per chiunque voglia fare training su grande scala.