Small Language Model
Un Small Language Model (SLM) è un modello linguistico nel range 1B-7B di parametri, ottimizzato per massimizzare la qualità per parametro piuttosto che la capacità assoluta. L'intuizione chiave emersa dalla serie Microsoft Phi è che addestrare su dati sintetici di qualità 'da libro di testo' permette a un modello da 1.3B parametri di rivaleggiare con modelli molto più grandi su benchmark di ragionamento. Gli SLM girano su laptop, smartphone e dispositivi embedded senza GPU dedicata. Esempi rappresentativi sono Phi-1.5, Phi-3, Gemma 2B, Qwen 1.5B e SmolLM.
In pratica
Uno sviluppatore sceglie un SLM quando deve deployare un assistente AI su hardware edge (Raspberry Pi, telefono Android, laptop aziendale) dove un LLM da 70B sarebbe impraticabile. Con llama.cpp o Ollama è possibile eseguire Phi-3 Mini quantizzato a 4-bit su qualsiasi CPU moderna a velocità accettabile. Gli SLM sono anche ideali per task specializzati: fine-tuning su un dominio specifico con pochi dati produce modelli compatti che superano GPT-4 nel dominio target.