Pietra miliare AI multimodale · 1 min lettura
Gemini 2.0 Flash: multimodale nativo con output audio e immagini
In una frase Google DeepMind rilascia Gemini 2.0 Flash Experimental: input testo+immagine+audio+video, output testo+immagine+audio, latenza ~50ms per token con tool use agente integrato.
Livello di lettura
Gemini 2.0 Flash non è solo un modello che capisce immagini e audio: è il primo modello di Google capace di produrre output in tutte le modalità in modo nativo. Puoi parlargli, mostrargli video in tempo reale e lui risponde con voce, testo e immagini generati autonomamente. La latenza di 50 millisecondi per token lo rende utilizzabile in conversazioni naturali in tempo reale. Integra anche strumenti come ricerca web e esecuzione di codice, rendendolo un vero agente multimodale.
Aziende
Google DeepMind
Tool
Gemini 2.0 Flash, Gemini API, Live API
Tag
GeminiMultimodal NativeAudioVideoAgenticReal-Time
Fonti