AWQ: quantizzazione 4-bit activation-aware per deployment edge con accuracy superiore a GPTQ
In una frase MIT Han Lab pubblica AWQ: quantizzazione 4-bit che preserva i pesi salientes identificati tramite analisi delle attivazioni, ottenendo migliore accuracy-throughput di GPTQ per deployment edge.
Quantizzare un modello significa comprimere i suoi valori numerici da 16 bit a 4 bit per risparmiare memoria. Il problema è che non tutti i pesi sono ugualmente importanti: comprimere uniformemente porta a perdite di qualità non necessarie.
AWQ, sviluppato dal MIT Han Lab di Song Han, osserva che certi pesi hanno un impatto sproporzionato sull'output del modello — e questo si vede guardando le attivazioni in ingresso, non i pesi stessi. I pesi che ricevono attivazioni grandi sono più "importanti". AWQ li protegge scalandoli in modo da ridurre l'errore di quantizzazione su quelli critici.
Il risultato supera GPTQ in accuracy a parità di compressione, specialmente su modelli piccoli per dispositivi edge come smartphone e laptop. TinyChat, il motore di inferenza di MIT Han Lab, usa AWQ per girare LLaMA a 60+ token al secondo su un MacBook M2.
Aziende
MIT Han Lab
Tool
AWQ, PyTorch, TinyChat, llama.cpp
Tag
Fonti