Inferenza Intermedio Anche noto come: Quantizzazione

Quantization

Tecnica che riduce la precisione numerica dei pesi del modello (per esempio da 16 a 4 bit) per farlo occupare meno memoria e girare più veloce.

CondividiLinkedIn X

In pratica

È quello che permette di far girare un Llama 70B su una sola GPU o un modello da 7B su un Mac. Si perde un po' di qualità ma spesso poco. Tool tipici: GGUF, AWQ, GPTQ. Utile per deploy on-prem o edge.

Termini collegati

Inference compute LoRA

Visto in azione

11 voci che lo citano

30 aprile 2026

Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM

Medio
1 marzo 2025

torchao: quantizzazione e sparsity nativi PyTorch senza CUDA custom

Medio
10 settembre 2024

KV Cache Quantization FP8/INT8: doppia la densità di utenti per GPU

Alto
20 agosto 2024

bitsandbytes 0.43: QLoRA e quantizzazione NF4/FP4 per fine-tuning 4-bit

Medio
5 agosto 2024

LLM Compressor: toolkit unificato per quantizzazione e sparsità con integrazione vLLM nativa

Medio
25 marzo 2024

Specifica GGUF: il formato standard per modelli LLM quantizzati locali

Medio
15 settembre 2023

ExLlamaV2: inferenza LLM quantizzata ad alta velocità su GPU consumer

Medio
5 luglio 2023

llama.cpp K-quants: la quantizzazione intelligente che ha cambiato i modelli locali

Alto
22 giugno 2023

AWQ: quantizzazione 4-bit activation-aware per deployment edge con accuracy superiore a GPTQ

Alto
10 marzo 2023

llama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU

Pietra miliare
12 ottobre 2022

GPTQ: quantizzazione 4-bit post-training che rende pratica l'inferenza di modelli GPT-scale

Alto

← Tutti i termini