Salta al contenuto
AImpact
IT EN
Pietra miliare AI locale · 1 min lettura

llama.cpp: LLaMA 7B gira in 4-bit su MacBook CPU

In una frase Georgi Gerganov porta LLaMA di Meta su CPU consumer con quantizzazione 4-bit in C++: primo modello foundation praticabile completamente offline su laptop.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Meta aveva appena rilasciato LLaMA, una famiglia di modelli linguistici potenti ma pensati per girare su cluster GPU. Pochi giorni dopo, Georgi Gerganov pubblica llama.cpp: una versione del modello compressa e riscritta in C++ che gira sulla CPU di un normale MacBook.

La svolta tecnica è la quantizzazione a 4 bit: invece di usare numeri in virgola mobile a piena precisione, ogni peso del modello viene approssimato con soli 4 bit. La qualità cala leggermente, ma il modello diventa quattro volte più piccolo e molto più veloce su hardware comune.

Per la prima volta, un modello linguistico paragonabile a GPT-3 nella struttura può girare sul laptop di chiunque, senza internet, senza abbonamenti, senza server.

Aziende

Georgi Gerganov (indipendente), Meta AI

Tool

llama.cpp, LLaMA

Tag

LLaMAllama.cppC++QuantizzazioneGeorgi Gerganov

Fonti