In pratica
È il motivo per cui un LLM capisce che 'lui' in una frase si riferisce a una persona menzionata prima. Il costo di calcolo cresce con il quadrato della lunghezza del contesto: per questo gestire contesti molto lunghi è costoso.
Termini collegati
Visto in azione
12 voci che lo citano- MediovLLM v0.7: chunked prefill default e v1 engine ridisegnato
- MedioContinuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI
- MedioFlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion
- AltoFlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8
- MedioSGLang: throughput LLM 6.4x con RadixAttention e prefix caching condiviso
- AltoFlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256
- AltoHuggingFace TGI: container Docker production-ready per LLM serving con continuous batching
- AltovLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley
- Pietra miliareFlashAttention: attenzione IO-aware che rivoluziona il training dei transformer
- MedioBig Bird a NeurIPS 2020: attention sparsa per sequenze fino a 4096 token
- MedioLongformer: sliding-window attention per documenti lunghi
- MedioReformer: il transformer che gestisce sequenze lunghissime