Salta al contenuto
AImpact
IT EN
Infrastruttura Avanzato Anche noto come: PP · Inter-layer Parallelism

Pipeline Parallelism

Il pipeline parallelism è una strategia di distribuzione del training in cui i layer di una rete neurale vengono suddivisi in blocchi contigui, ciascuno assegnato a una GPU distinta. Ogni GPU elabora il proprio blocco di layer e passa le attivazioni alla GPU successiva, formando una pipeline. Differisce dal tensor parallelism, che invece suddivide le singole matrici di peso all'interno di un layer. Combinato con tensor parallelism e data parallelism forma il cosiddetto '3D parallelism', adottato da Megatron-LM per addestrare modelli da centinaia di miliardi di parametri.

CondividiLinkedInX

In pratica

Un ingegnere che addestra un modello troppo grande per una singola GPU — o anche per un singolo nodo multi-GPU — usa pipeline parallelism per distribuire i layer su più nodi. Con DeepSpeed o Megatron-LM si configura il grado di pipeline (numero di stage) e il numero di micro-batch per riempire la pipeline e minimizzare il 'bubble overhead' (tempo in cui le GPU rimangono inattive tra un micro-batch e l'altro). In inferenza, lo stesso approccio permette di servire LLM molto grandi distribuendo i layer su più server.

Termini collegati

Visto in azione

29 voci che lo citano
  1. Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
    Medio
  2. OpenAI spegne l'app Sora: il video AI consumer non regge i conti
    Medio
  3. Gemini Robotics: DeepMind porta i foundation model nel mondo fisico
    Alto
  4. Local AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità
    Medio
  5. KoboldCpp v1.84: RAG nativo con ChromaDB embedded, zero server separati
    Medio
  6. Attacchi alla supply chain AI: modelli avvelenati, LoRA malevoli e backdoor nei file GGUF
    Alto
  7. Microsoft 365 Copilot Autonomous Agents: Sales, IT e HR lavorano senza supervisione continua
    Alto
  8. llama.cpp: speculative decoding con draft model per 2-3x speedup
    Alto
  9. GitHub Spark: da descrizione in linguaggio naturale a micro-app web in produzione
    Medio
  10. llama.cpp backend Vulkan: accelerazione GPU per AMD, Intel Arc e oltre CUDA
    Medio
  11. Pinokio: l'App Store per strumenti AI locali
    Medio
  12. Zendesk AI Suite: agenti autonomi per customer support end-to-end
    Medio
  13. Gemma 2: la seconda generazione open di Google con distillazione da Gemini
    Alto
  14. Apple Intelligence: il piano AI di Apple, on-device + Private Cloud Compute
    Alto
  15. KoboldCpp aggiunge RAG integrato: LLM offline all-in-one con documenti e character AI
    Medio
  16. FlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8
    Alto
  17. Specifica GGUF: il formato standard per modelli LLM quantizzati locali
    Medio
  18. llamafile Mozilla: LLM in un singolo eseguibile portatile su qualsiasi OS
    Medio
  19. Apptronik Apollo: umanoide general purpose con API ROS2 aperta
    Medio
  20. Jan.ai: app desktop open source per LLM locali con thread e server locale
    Medio
← Tutti i termini