Salta al contenuto
AImpact
IT EN
Infrastruttura Base Anche noto come: Calcolo in inferenza · Test-time compute

Inference compute

Quantità di calcolo che il modello usa al momento della risposta, non durante l'addestramento. Più calcolo in inferenza spesso vuol dire risposte migliori ma più lente e costose.

CondividiLinkedInX

In pratica

I modelli reasoning spostano risorse dal training all'inferenza. Per chi deploya un servizio è la voce di costo più visibile: ogni chiamata costa GPU. Strategie per ridurla: caching, modelli più piccoli, quantizzazione, batch.

Termini collegati

← Tutti i termini