Inferenza Intermedio Anche noto come: K-Quantization · llama.cpp K-Quants · GGUF K-Quants

K-Quants

I K-Quants sono una famiglia di metodi di quantizzazione implementati in llama.cpp (da Q2_K a Q8_K) che applicano bit-width diverse ai layer del modello in base alla loro sensibilità alla perdita di precisione. I layer di attenzione e di embedding, più sensibili, ricevono più bit; i layer feed-forward intermedi, meno critici, ne ricevono meno. Questa quantizzazione non uniforme produce una qualità superiore rispetto ai formati Q-flat più vecchi (Q4_0, Q5_1) a parità di dimensione del file. Q4_K_M è diventato il formato di riferimento per l'inferenza locale, ottenendo qualità migliore del vecchio Q5_1 pur essendo più compatto. Sono il formato standard dei modelli GGUF moderni scaricabili da HuggingFace.

CondividiLinkedIn X

In pratica

Un utente che vuole eseguire Llama 3 70B su un PC con 48 GB di RAM scarica la variante Q4_K_M dal repository GGUF su HuggingFace (tipicamente caricato da TheBloke o bartowski) e la avvia con `llama.cpp` o un'interfaccia come LM Studio o Ollama. La scelta del livello di quantizzazione segue una regola pratica: Q4_K_M per il miglior equilibrio qualità/dimensione, Q5_K_M se si ha RAM sufficiente e si vuole maggiore fedeltà, Q2_K se lo spazio è molto limitato accettando qualità degradata. I K-Quants sono trasparenti all'utente finale: l'interfaccia carica il file GGUF e gestisce internamente il formato.

Termini collegati

Quantization QLoRA

Visto in azione

1 voci che lo citano

5 luglio 2023

llama.cpp K-quants: la quantizzazione intelligente che ha cambiato i modelli locali

Alto

← Tutti i termini