ExLlamaV2: inferenza LLM quantizzata ad alta velocità su GPU consumer

In una frase ExLlamaV2 introduce il formato EXL2 con bit-rate misti per layer (2-8 bit), offrendo throughput superiore a llama.cpp su GPU NVIDIA e permettendo di far girare modelli 70B su singola RTX 3090.

Verificato Fonte ufficiale

CondividiLinkedIn X

I modelli linguistici grandi sono pesanti: un LLaMA 70B in piena precisione occupa oltre 130 GB di VRAM, ben oltre qualsiasi GPU consumer. La quantizzazione riduce la dimensione del modello diminuendo la precisione dei numeri, ma se fatto male degrada la qualità delle risposte.

ExLlamaV2 risolve questo problema con un approccio intelligente: non quantizza tutti i layer allo stesso modo. I layer più "sensibili" mantengono più bit, quelli meno critici vengono compressi di più. Il risultato è un modello più piccolo che mantiene meglio la qualità rispetto a una quantizzazione uniforme.

Su GPU NVIDIA, ExLlamaV2 è significativamente più veloce di llama.cpp (che è ottimizzato principalmente per CPU), rendendolo la scelta preferita per chi ha una buona scheda video e vuole velocità massima nella generazione di testo.