Alto AI multimodale · 1 min lettura
Gemma 3: la prima versione multimodale con vision e 128k context
In una frase Google rilascia Gemma 3 con supporto vision nativo: encoder SigLIP, 128k token di contesto, frame video multipli e licenza Apache 2.0 per la variante 27B.
Livello di lettura
Gemma era già un'ottima serie di modelli linguistici open source di Google. Con la versione 3 arriva la visione: ora Gemma può guardare immagini e video e ragionare su di essi, con una finestra di contesto di 128.000 token. Questo significa che puoi dargli un documento visivo molto lungo, o molti frame di un video, e lui ricorda tutto. La licenza Apache 2.0 rende Gemma 3 il VLM di Google completamente libero da usare, anche per applicazioni commerciali.
Aziende
Tool
Gemma 3, Gemma 3-27B, SigLIP
Tag
GemmaVisionOpen SourceGoogleLong ContextVideo
Fonti