Modelli Base Anche noto come: Attenzione · Self-attention

Attention

Meccanismo che permette al modello di pesare quanto ogni parola del testo sia rilevante rispetto alle altre per comprendere il significato del contesto.

CondividiLinkedIn X

In pratica

È il motivo per cui un LLM capisce che 'lui' in una frase si riferisce a una persona menzionata prima. Il costo di calcolo cresce con il quadrato della lunghezza del contesto: per questo gestire contesti molto lunghi è costoso.

Termini collegati

Transformer Context window

Visto in azione

12 voci che lo citano

2 luglio 2025

vLLM v0.7: chunked prefill default e v1 engine ridisegnato

Medio
8 aprile 2025

Continuous Batching per LLM Serving: survey e stato dell'arte di Orca, vLLM, SGLang, TGI

Medio
22 gennaio 2025

FlashInfer 0.2: libreria attention per LLM serving con paged KV cache e RoPE fusion

Medio
18 maggio 2024

FlashAttention-3: 2.6x speedup su FA2 ottimizzando per H100 Hopper con wgmma, TMA e FP8

Alto
2 maggio 2024

SGLang: throughput LLM 6.4x con RadixAttention e prefix caching condiviso

Medio
28 luglio 2023

FlashAttention-2: riscrittura con 2x speedup, MQA/GQA e head-dim 256

Alto
6 giugno 2023

HuggingFace TGI: container Docker production-ready per LLM serving con continuous batching

Alto
9 febbraio 2023

vLLM: throughput LLM 24x con PagedAttention dalla UC Berkeley

Alto
21 giugno 2022

FlashAttention: attenzione IO-aware che rivoluziona il training dei transformer

Pietra miliare
8 dicembre 2020

Big Bird a NeurIPS 2020: attention sparsa per sequenze fino a 4096 token

Medio
22 luglio 2020

Longformer: sliding-window attention per documenti lunghi

Medio
13 gennaio 2020

Reformer: il transformer che gestisce sequenze lunghissime

Medio

← Tutti i termini