torchao: quantizzazione e sparsity nativi PyTorch senza CUDA custom

In una frase Meta rilascia torchao come libreria PyTorch-nativa per quantizzazione INT4/FP8/INT8 e sparsity, con 2x speedup su Llama-3 8B in INT4 senza richiedere kernel CUDA personalizzati, emergendo come layer standard di quantizzazione nell'ecosistema PyTorch.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Quantizzare un modello significa comprimerlo usando numeri meno precisi — invece di 16 bit per peso, usare 8, 4 o anche meno. Questo rende i modelli più veloci e meno esigenti di memoria. Il problema è che farlo bene tradizionalmente richiedeva codice CUDA estremamente specializzato, scritto in un linguaggio di basso livello simile a C, che poche persone sanno scrivere.

torchao cambia questo. È una libreria di Meta che porta la quantizzazione come funzionalità di prima classe in PyTorch, scritta principalmente usando le astrazioni di alto livello di PyTorch stesso (più Triton per i kernel critici). Applichi due o tre righe di codice al tuo modello, scegli il formato di quantizzazione che vuoi, e il modello viene ottimizzato automaticamente.

I risultati pratici sono significativi: su Llama-3 8B, la quantizzazione INT4 con torchao ottiene 2x la velocità di inferenza rispetto al modello originale FP16, con una perdita di qualità molto piccola. Questo significa rispondere il doppio delle domande per ora sullo stesso hardware, o usare la metà dell'hardware per la stessa capacità. Il fatto che non serva più scrivere CUDA personalizzato abbassa enormemente la barriera per chi vuole ottimizzare i propri modelli.