LLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa

In una frase Neural Magic rilascia LLM Compressor: libreria open source che unifica GPTQ, AWQ, SmoothQuant e SparseGPT in un singolo toolkit con integrazione vLLM nativa, semplificando il deployment di modelli compressi.

Verificato Fonte ufficiale

CondividiLinkedIn X

Comprimere un modello linguistico grande per farlo girare più velocemente e con meno memoria è una cosa; avere strumenti affidabili per farlo in produzione è un'altra. Fino al 2024, chi voleva quantizzare o potare un modello doveva usare librerie diverse, con formati incompatibili e processi di calibrazione diversi per ogni tecnica.

LLM Compressor, sviluppato da Neural Magic e poi spostato sotto il progetto vLLM, unifica tutto in una singola libreria Python. GPTQ, AWQ, SmoothQuant e SparseGPT usano tutti la stessa API, lo stesso processo di calibrazione, e producono output direttamente compatibili con vLLM senza conversioni manuali.

L'obiettivo è rendere la compressione accessibile agli ingegneri MLOps che non hanno un background di ricerca in quantizzazione: una riga di codice per calibrare, una per quantizzare, un flag in vLLM per servire.