Salta al contenuto
AImpact
IT EN
Alto AI multimodale · 1 min lettura

Gemma 3: la prima versione multimodale con vision e 128k context

In una frase Google rilascia Gemma 3 con supporto vision nativo: encoder SigLIP, 128k token di contesto, frame video multipli e licenza Apache 2.0 per la variante 27B.

Verificato Fonte ufficiale
CondividiLinkedInX
Livello di lettura

Gemma era già un'ottima serie di modelli linguistici open source di Google. Con la versione 3 arriva la visione: ora Gemma può guardare immagini e video e ragionare su di essi, con una finestra di contesto di 128.000 token. Questo significa che puoi dargli un documento visivo molto lungo, o molti frame di un video, e lui ricorda tutto. La licenza Apache 2.0 rende Gemma 3 il VLM di Google completamente libero da usare, anche per applicazioni commerciali.

Aziende

Google

Tool

Gemma 3, Gemma 3-27B, SigLIP

Tag

GemmaVisionOpen SourceGoogleLong ContextVideo

Fonti