Infrastruttura Base Anche noto come: Calcolo in inferenza · Test-time compute

Inference compute

Quantità di calcolo che il modello usa al momento della risposta, non durante l'addestramento. Più calcolo in inferenza spesso vuol dire risposte migliori ma più lente e costose.

CondividiLinkedIn X

In pratica

I modelli reasoning spostano risorse dal training all'inferenza. Per chi deploya un servizio è la voce di costo più visibile: ogni chiamata costa GPU. Strategie per ridurla: caching, modelli più piccoli, quantizzazione, batch.

Termini collegati

Reasoning model Quantization MoE

Visto in azione

2 voci che lo citano

1 febbraio 2025

s1: 1000 esempi e un trucco di prompt per replicare un reasoning model

Alto
12 settembre 2024

o1: il primo modello che 'pensa prima di rispondere'

Pietra miliare

← Tutti i termini