In pratica
È quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.
Termini collegati
Visto in azione
11 voci che lo citano- MedioQuantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
- Mediotorchao: quantizzazione e sparsity nativi PyTorch senza CUDA custom
- AltoKV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU
- Mediobitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit
- MedioLLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa
- MedioSpecifica GGUF: il formato standard per modelli LLM quantizzati locali
- MedioExLlamaV2: inferenza LLM quantizzata ad alta velocità su GPU consumer
- Altollama.cpp K-quants: la quantizzazione intelligente che ha cambiato i modelli locali
- AltoAWQ: quantizzazione 4-bit activation-aware per deployment edge con accuracy superiore a GPTQ
- Pietra miliarellama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU
- AltoGPTQ: quantizzazione 4-bit post-training che rende pratica l'inferenza di modelli GPT-scale