10 gennaio 2025 Pietra miliare AI multimodale · 1 min lettura

Gemini 2.0 Flash: multimodale nativo con output audio e immagini

In una frase Google DeepMind rilascia Gemini 2.0 Flash Experimental: input testo+immagine+audio+video, output testo+immagine+audio, latenza ~50ms per token con tool use agente integrato.

Verificato Fonte ufficiale

CondividiLinkedIn X

Livello di lettura

Gemini 2.0 Flash non è solo un modello che capisce immagini e audio: è il primo modello di Google capace di produrre output in tutte le modalità in modo nativo. Puoi parlargli, mostrargli video in tempo reale e lui risponde con voce, testo e immagini generati autonomamente. La latenza di 50 millisecondi per token lo rende utilizzabile in conversazioni naturali in tempo reale. Integra anche strumenti come ricerca web e esecuzione di codice, rendendolo un vero agente multimodale.

Aziende

Google DeepMind

Tool

Gemini 2.0 Flash, Gemini API, Live API

Tag

GeminiMultimodal NativeAudioVideoAgenticReal-Time

Fonti

https://deepmind.google/technologies/gemini/flash/