Llama 3.2: Meta porta visione e edge ai modelli aperti

In una frase Meta rilascia Llama 3.2 in 4 taglie: 1B e 3B per edge/mobile, 11B e 90B multimodali (vision). Prima volta che Meta entra serio in multimodale open + on-device.

Verificato Fonte ufficiale

CondividiLinkedIn X

Meta aggiorna la sua famiglia Llama con due novità importanti. Primo: due modelli molto piccoli (1 e 3 miliardi di parametri) pensati per girare su un cellulare o un Raspberry Pi. Secondo: per la prima volta Llama "vede": le versioni 11B e 90B accettano immagini in input, quindi puoi mostrargli un grafico, una ricevuta, una foto e fargli domande.

Per gli sviluppatori open-source è importante: fino a quel momento, per fare vision con un modello aperto bisognava combinare pezzi (Llava, Bunny, ecc.) di qualità variabile. Ora c'è una baseline ufficiale di Meta, paragonabile a GPT-4o sulla parte vision.

Una nota: i modelli vision (11B e 90B) non sono distribuiti in UE per problemi normativi (AI Act), e questo apre un dibattito su quanto la regolazione europea stia rallentando l'accesso ai modelli open.