Pipeline Parallelism
Il pipeline parallelism è una strategia di distribuzione del training in cui i layer di una rete neurale vengono suddivisi in blocchi contigui, ciascuno assegnato a una GPU distinta. Ogni GPU elabora il proprio blocco di layer e passa le attivazioni alla GPU successiva, formando una pipeline. Differisce dal tensor parallelism, che invece suddivide le singole matrici di peso all'interno di un layer. Combinato con tensor parallelism e data parallelism forma il cosiddetto '3D parallelism', adottato da Megatron-LM per addestrare modelli da centinaia di miliardi di parametri.
In pratica
Un ingegnere che addestra un modello troppo grande per una singola GPU — o anche per un singolo nodo multi-GPU — usa pipeline parallelism per distribuire i layer su più nodi. Con DeepSpeed o Megatron-LM si configura il grado di pipeline (numero di stage) e il numero di micro-batch per riempire la pipeline e minimizzare il 'bubble overhead' (tempo in cui le GPU rimangono inattive tra un micro-batch e l'altro). In inferenza, lo stesso approccio permette di servire LLM molto grandi distribuendo i layer su più server.
Termini collegati
Visto in azione
29 voci che lo citano- MedioQuantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
- MedioOpenAI spegne l'app Sora: il video AI consumer non regge i conti
- AltoGemini Robotics: DeepMind porta i foundation model nel mondo fisico
- MedioLocal AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità
- MedioKoboldCpp v1.84: RAG nativo con ChromaDB embedded, zero server separati
- AltoAttacchi alla supply chain AI: modelli avvelenati, LoRA malevoli e backdoor nei file GGUF
- AltoMicrosoft 365 Copilot Autonomous Agents: Sales, IT e HR lavorano senza supervisione continua
- Altollama.cpp: speculative decoding con draft model per 2-3x speedup
- MedioGitHub Spark: da descrizione in linguaggio naturale a micro-app web in produzione
- Mediollama.cpp backend Vulkan: accelerazione GPU per AMD, Intel Arc e oltre CUDA
- MedioPinokio: l'App Store per strumenti AI locali
- MedioZendesk AI Suite: agenti autonomi per customer support end-to-end
- AltoGemma 2: la seconda generazione open di Google con distillazione da Gemini
- AltoApple Intelligence: il piano AI di Apple, on-device + Private Cloud Compute
- MedioKoboldCpp aggiunge RAG integrato: LLM offline all-in-one con documenti e character AI
- AltoFlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8
- MedioSpecifica GGUF: il formato standard per modelli LLM quantizzati locali
- Mediollamafile Mozilla: LLM in un singolo eseguibile portatile su qualsiasi OS
- MedioApptronik Apollo: umanoide general purpose con API ROS2 aperta
- MedioJan.ai: app desktop open source per LLM locali con thread e server locale