Salta al contenuto
AImpact
IT EN
Inferenza Intermedio Anche noto come: Quantizzazione

Quantization

Tecnica che riduce la precisione numerica dei pesi del modello (per esempio da 16 a 4 bit) per farlo occupare meno memoria e girare più veloce.

CondividiLinkedInX

In pratica

È quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.

Termini collegati

← Tutti i termini