Inferenza Avanzato Anche noto come: Flash Attention

FlashAttention

Algoritmo che riorganizza il calcolo dell'attenzione per minimizzare gli spostamenti di dati tra memoria veloce e memoria lenta della GPU.

CondividiLinkedIn X

In pratica

Non cambia il risultato matematico, ma rende l'attenzione molto più rapida e meno affamata di memoria. È integrato di serie in PyTorch e nei principali server di inferenza (vLLM, TGI). Per chi usa API non è visibile; per chi self-hosta è quasi obbligatorio attivarlo.

Termini collegati

Attention Transformer KV Cache Inference compute

Visto in azione

4 voci che lo citano

18 maggio 2024

FlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8

Alto
28 luglio 2023

FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256

Alto
6 giugno 2023

HuggingFace TGI: container Docker production-ready per LLM serving con continuous batching

Alto
21 giugno 2022

FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer

Pietra miliare

← Tutti i termini