GPTQ: quantizzazione 4-bit post-training che rende pratica l'inferenza di modelli GPT-scale
In una frase Frantar et al. (ETH Zurich) pubblicano GPTQ: quantizzazione 4-bit accurata senza fine-tuning significativo, prima tecnica a rendere pratica l'inferenza di modelli da 175B su hardware consumer.
I modelli linguistici grandi come GPT-3 pesano centinaia di gigabyte e richiedono GPU da data center per girare. La quantizzazione è l'idea di comprimere i numeri che rappresentano i pesi del modello: invece di usare 16 bit per ogni valore, usarne solo 4, riducendo il peso di 4 volte.
Il problema è che comprimere aggressivamente i pesi degrada la qualità del modello. GPTQ, pubblicato da ricercatori dell'ETH Zurich, trova un modo matematico intelligente per compensare gli errori introdotti dalla quantizzazione, calibrando i pesi layer per layer su un piccolo dataset di riferimento. Tutto senza ri-addestrare il modello.
Il risultato: modelli da 175 miliardi di parametri possono girare su una singola GPU consumer da 24 GB con perdita di qualità minima. GPTQ apre la strada all'inferenza locale di LLM grandi, precedendo di mesi l'esplosione dei modelli open-source.
Aziende
ETH Zurich
Tool
GPTQ, PyTorch, CUDA
Tag
Fonti