In pratica
È il modo di funzionare di tutti gli LLM di tipo GPT: ogni token nuovo dipende da tutti quelli generati prima. Spiega perché la generazione è intrinsecamente sequenziale e difficile da parallelizzare, ed è il motivo dietro tecniche come speculative decoding per accelerare l'output.