Salta al contenuto
AImpact
IT EN
Medio Infrastruttura AI · 1 min lettura

LLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa

In una frase Neural Magic rilascia LLM Compressor: libreria open source che unifica GPTQ, AWQ, SmoothQuant e SparseGPT in un singolo toolkit con integrazione vLLM nativa, semplificando il deployment di modelli compressi.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Comprimere un modello linguistico grande per farlo girare più velocemente e con meno memoria è una cosa; avere strumenti affidabili per farlo in produzione è un'altra. Fino al 2024, chi voleva quantizzare o potare un modello doveva usare librerie diverse, con formati incompatibili e processi di calibrazione diversi per ogni tecnica.

LLM Compressor, sviluppato da Neural Magic e poi spostato sotto il progetto vLLM, unifica tutto in una singola libreria Python. GPTQ, AWQ, SmoothQuant e SparseGPT usano tutti la stessa API, lo stesso processo di calibrazione, e producono output direttamente compatibili con vLLM senza conversioni manuali.

L'obiettivo è rendere la compressione accessibile agli ingegneri MLOps che non hanno un background di ricerca in quantizzazione: una riga di codice per calibrare, una per quantizzare, un flag in vLLM per servire.

Aziende

Neural Magic, vLLM Project

Tool

LLM Compressor, vLLM, GPTQ, AWQ, SmoothQuant, SparseGPT, PyTorch

Tag

LLM CompressorNeural MagicQuantizzazioneSparsitàGPTQAWQSmoothQuantSparseGPTvLLMToolkit

Fonti