llama.cpp K-quants: la quantizzazione intelligente che ha cambiato i modelli locali

In una frase llama.cpp introduce le K-quants (Q2_K–Q8_K): quantizzazione per-layer che assegna bit diversi in base all'importanza del tensore. Q4_K_M raggiunge la qualità di Q5_1 con file più piccoli, diventando lo standard de facto per tutti i modelli GGUF moderni.

Da rivedere Fonte community

CondividiLinkedIn X

Comprimere un modello AI per farlo girare su hardware consumer è come comprimere una fotografia: più comprimi, più perdi dettagli. Prima delle K-quants, la quantizzazione era brutale e uniforme — ogni parte del modello veniva compressa allo stesso modo, indipendentemente dalla sua importanza.

Le K-quants hanno introdotto un'idea elegante: non tutte le parti di un modello AI sono ugualmente importanti. Alcune "teste di attenzione" e strati intermedi portano informazioni critiche, mentre altri sono più ridondanti. Perché non comprimere di meno le parti importanti, e di più quelle che "reggono" meglio la compressione?

Il risultato pratico è stato straordinario: Q4_K_M (4 bit medi con schema K) offriva la stessa qualità di Q5_1 (5 bit legacy) in un file più piccolo. Questo ha significato modelli da 13 miliardi di parametri che giravano comodamente su 8GB di RAM con qualità vicina al modello pieno. Ogni modello GGUF distribuito oggi usa questo schema — Q4_K_M e Q5_K_M sono diventati i formati raccomandati per il 90% degli utenti locali.