Infrastruttura Avanzato Anche noto come: PP · Inter-layer Parallelism

Pipeline Parallelism

Il pipeline parallelism è una strategia di distribuzione del training in cui i layer di una rete neurale vengono suddivisi in blocchi contigui, ciascuno assegnato a una GPU distinta. Ogni GPU elabora il proprio blocco di layer e passa le attivazioni alla GPU successiva, formando una pipeline. Differisce dal tensor parallelism, che invece suddivide le singole matrici di peso all'interno di un layer. Combinato con tensor parallelism e data parallelism forma il cosiddetto '3D parallelism', adottato da Megatron-LM per addestrare modelli da centinaia di miliardi di parametri.

CondividiLinkedIn X

In pratica

Un ingegnere che addestra un modello troppo grande per una singola GPU — o anche per un singolo nodo multi-GPU — usa pipeline parallelism per distribuire i layer su più nodi. Con DeepSpeed o Megatron-LM si configura il grado di pipeline (numero di stage) e il numero di micro-batch per riempire la pipeline e minimizzare il 'bubble overhead' (tempo in cui le GPU rimangono inattive tra un micro-batch e l'altro). In inferenza, lo stesso approccio permette di servire LLM molto grandi distribuendo i layer su più server.

Termini collegati

Quantization Inference compute

Visto in azione

31 voci che lo citano

← Tutti i termini