Local AI 2025: Ollama, MLX LM, Apple Foundation Models triplicano la velocità

In una frase Lo stack Local AI matura: Ollama accelera inferenza con scheduler migliorato e KV cache compresso, MLX LM diventa SOTA su Apple Silicon, Apple debutta Foundation Models framework per app native. Eseguire Llama 3.3 70B su MacBook diventa pratica quotidiana.

Da rivedere Fonte ufficiale

CondividiLinkedIn X

Nel 2025 lo stack "AI locale" — cioè modelli che girano sul tuo PC senza inviare nulla a un cloud — fa un balzo enorme. Tre fattori convergenti.

Ollama, lo strumento più usato per scaricare ed eseguire modelli LLM in locale, aggiorna il backend con uno scheduler più efficiente e compressione KV cache: i modelli grandi (Llama 3.3 70B, Qwen 2.5 72B, DeepSeek V3) ora girano realisticamente su MacBook M3/M4 Max o workstation con 64-96GB di RAM.

MLX LM, il framework di Apple per machine learning, diventa SOTA per inference su Apple Silicon: spesso più veloce di llama.cpp sui Mac. E Apple lancia "Foundation Models framework", una API nativa che permette alle app iOS/macOS di chiamare il modello LLM locale di Apple Intelligence (3B parametri, ottimizzato sul Neural Engine).

Risultato pratico: ChatGPT-like in locale, gratis, privato, su laptop consumer. Cambia l'economia di tanti use case.