Llama 3.2: Meta porta visione e edge ai modelli aperti
In una frase Meta rilascia Llama 3.2 in 4 taglie: 1B e 3B per edge/mobile, 11B e 90B multimodali (vision). Prima volta che Meta entra serio in multimodale open + on-device.
Meta aggiorna la sua famiglia Llama con due novità importanti. Primo: due modelli molto piccoli (1 e 3 miliardi di parametri) pensati per girare su un cellulare o un Raspberry Pi. Secondo: per la prima volta Llama "vede": le versioni 11B e 90B accettano immagini in input, quindi puoi mostrargli un grafico, una ricevuta, una foto e fargli domande.
Per gli sviluppatori open-source è importante: fino a quel momento, per fare vision con un modello aperto bisognava combinare pezzi (Llava, Bunny, ecc.) di qualità variabile. Ora c'è una baseline ufficiale di Meta, paragonabile a GPT-4o sulla parte vision.
Una nota: i modelli vision (11B e 90B) non sono distribuiti in UE per problemi normativi (AI Act), e questo apre un dibattito su quanto la regolazione europea stia rallentando l'accesso ai modelli open.
Aziende
Meta
Tool
Llama 3.2 1B, Llama 3.2 3B, Llama 3.2 11B Vision, Llama 3.2 90B Vision
Tag
Fonti