LLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa
In una frase Neural Magic rilascia LLM Compressor: libreria open source che unifica GPTQ, AWQ, SmoothQuant e SparseGPT in un singolo toolkit con integrazione vLLM nativa, semplificando il deployment di modelli compressi.
Comprimere un modello linguistico grande per farlo girare più velocemente e con meno memoria è una cosa; avere strumenti affidabili per farlo in produzione è un'altra. Fino al 2024, chi voleva quantizzare o potare un modello doveva usare librerie diverse, con formati incompatibili e processi di calibrazione diversi per ogni tecnica.
LLM Compressor, sviluppato da Neural Magic e poi spostato sotto il progetto vLLM, unifica tutto in una singola libreria Python. GPTQ, AWQ, SmoothQuant e SparseGPT usano tutti la stessa API, lo stesso processo di calibrazione, e producono output direttamente compatibili con vLLM senza conversioni manuali.
L'obiettivo è rendere la compressione accessibile agli ingegneri MLOps che non hanno un background di ricerca in quantizzazione: una riga di codice per calibrare, una per quantizzare, un flag in vLLM per servire.
Aziende
Neural Magic, vLLM Project
Tool
LLM Compressor, vLLM, GPTQ, AWQ, SmoothQuant, SparseGPT, PyTorch
Tag
Fonti