llama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU

In una frase Georgi Gerganov porta LLaMA di Meta su CPU consumer con quantizzazione 4-bit in C++: primo modello foundation praticabile completamente offline su laptop.

Verificato Fonte ufficiale

CondividiLinkedIn X

Meta aveva appena rilasciato LLaMA, una famiglia di modelli linguistici potenti ma pensati per girare su cluster GPU. Pochi giorni dopo, Georgi Gerganov pubblica llama.cpp: una versione del modello compressa e riscritta in C++ che gira sulla CPU di un normale MacBook.

La svolta tecnica è la quantizzazione a 4 bit: invece di usare numeri in virgola mobile a piena precisione, ogni peso del modello viene approssimato con soli 4 bit. La qualità cala leggermente, ma il modello diventa quattro volte più piccolo e molto più veloce su hardware comune.

Per la prima volta, un modello linguistico paragonabile a GPT-3 nella struttura può girare sul laptop di chiunque, senza internet, senza abbonamenti, senza server.