Quantizzazione 2-bit usabile: i modelli reasoning frontier scendono sotto i 32GB RAM
In una frase Nuove tecniche di quantizzazione (estensioni 2-bit / 3-bit di qualità) permettono di girare modelli reasoning dimensione frontier su workstation con 32-64GB di RAM unificata.
La storia della "AI locale" è stata, dal 2023 in poi, una lotta tra dimensione del modello e dimensione della RAM. Llama 1 65B richiedeva una macchina seria; con la quantizzazione 4-bit è diventato girabile su consumer high-end; con le architetture MoE (Mixtral, DeepSeek) il rapporto è migliorato ancora.
Nel 2026 arriva un altro salto: tecniche di quantizzazione che spingono la qualità del 2-bit / 3-bit a livelli prima impensabili. Combinandole con i modelli reasoning open-weight (DeepSeek R2, Qwen, Mistral) si può finalmente far girare un modello frontier reasoning di dimensione grande su un Mac Studio con 64GB di RAM unificata, o su una workstation Linux con due GPU consumer.
Per chi self-hosta: cambia tutto il calcolo costo/beneficio. Una macchina da ~5000€ può servire una piccola azienda per task interni (coding assistant, knowledge base, agent) senza chiamare l'API.
Per la privacy: i casi d'uso "AI air-gapped" (studi legali, sanità, PA) diventano molto più realistici.
Aziende
Ollama, llama.cpp
Tool
Ollama, llama.cpp, GGUF
Tag
Fonti