In pratica
Con k=1 diventa greedy decoding; con k alto torna quasi alla distribuzione piena. Si usa per evitare che il modello peschi parole assurde dalla coda della distribuzione. Nelle API moderne è spesso sostituito o combinato con top-p, considerato più adattivo.
Termini collegati
Visto in azione
0 voci che lo citanoNessuna voce dell'archivio lo cita esplicitamente. Compare in contesti più ampi.