Salta al contenuto
AImpact
IT EN
Inferenza Avanzato Anche noto come: Flash Attention

FlashAttention

Algoritmo che riorganizza il calcolo dell'attenzione per minimizzare gli spostamenti di dati tra memoria veloce e memoria lenta della GPU.

CondividiLinkedInX

In pratica

Non cambia il risultato matematico, ma rende l'attenzione molto più rapida e meno affamata di memoria. È integrato di serie in PyTorch e nei principali server di inferenza (vLLM, TGI). Per chi usa API non è visibile; per chi self-hosta è quasi obbligatorio attivarlo.

Termini collegati

← Tutti i termini