llama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU
In una frase Georgi Gerganov porta LLaMA di Meta su CPU consumer con quantizzazione 4-bit in C++: primo modello foundation praticabile completamente offline su laptop.
Meta aveva appena rilasciato LLaMA, una famiglia di modelli linguistici potenti ma pensati per girare su cluster GPU. Pochi giorni dopo, Georgi Gerganov pubblica llama.cpp: una versione del modello compressa e riscritta in C++ che gira sulla CPU di un normale MacBook.
La svolta tecnica è la quantizzazione a 4 bit: invece di usare numeri in virgola mobile a piena precisione, ogni peso del modello viene approssimato con soli 4 bit. La qualità cala leggermente, ma il modello diventa quattro volte più piccolo e molto più veloce su hardware comune.
Per la prima volta, un modello linguistico paragonabile a GPT-3 nella struttura può girare sul laptop di chiunque, senza internet, senza abbonamenti, senza server.
Aziende
Georgi Gerganov (indipendente), Meta AI
Tool
llama.cpp, LLaMA
Tag
Fonti