Gemini 2.0 e Deep Research — Google Rilancia con il Modello Agente

Cos'è: Gemini 2.0 è la seconda generazione di modelli multimodali di Google DeepMind, annunciata a dicembre 2024. Il rilascio introduce Gemini 2.0 Flash come modello principale, la funzione Deep Research per la generazione di report estesi con citazioni, e una serie di prototipi agentici (Project Mariner, Astra, Jules) che ridefiniscono l'ambizione di Google nell'AI applicata.

Gemini 2.0 Flash: il modello principale, non più "il piccolo"

Per anni la nomenclatura di Google ha posizionato i modelli "Flash" come versioni leggere e veloci dei loro fratelli maggiori. Con Gemini 2.0 questa gerarchia si rompe: Flash diventa il modello di punta annunciato a dicembre 2024, con prestazioni superiori a Gemini 1.5 Pro su quasi tutti i benchmark, latenza dimezzata e costi significativamente più bassi. È una scelta strategica precisa: Google vuole un modello che sia contemporaneamente economico e potente, ottimizzato per essere integrato ovunque — Search, Gmail, Workspace, app mobile.

Il modello è nativamente multimodale in ingresso e uscita: accetta testo, immagini, audio e video, e può generare testo, immagini e audio (text-to-speech con più voci controllabili). Supporta una context window da un milione di token, mantenuta dalla generazione precedente, ma con una qualità di recupero migliorata sui long context. A inizio 2025 arriva anche Gemini 2.0 Pro Experimental, destinato a task di coding complesso e ragionamento esteso, con context window estesa a due milioni di token.

Deep Research: il report come prodotto

La feature più rilevante del rilascio non è il modello in sé, ma Deep Research: un assistente che, data una domanda di ricerca, formula un piano, esplora decine di fonti web, prende appunti strutturati e produce un report multi-pagina con citazioni numerate. Disponibile inizialmente per gli abbonati a Gemini Advanced, è il primo prodotto consumer di Google esplicitamente posizionato come "agente di ricerca" — un sistema che opera per minuti, non per secondi, e che richiede pazienza all'utente in cambio di un output sostanzialmente più ricco.

L'esperienza utente è progettata per essere trasparente: prima di partire, Deep Research mostra il piano in linguaggio naturale ("cercherò questi sei temi, valuterò queste fonti, struttuerò il report così") e attende l'approvazione dell'utente. Durante l'esecuzione, una progress bar elenca i siti che sta consultando. Il report finale, esportabile in Google Docs, contiene sezioni, sottosezioni, link inline a ogni fonte e una lista bibliografica. È un pattern ispirato chiaramente a OpenAI o1 con search, ma applicato al caso d'uso "research analyst", non "math solver".

Project Mariner e l'ambizione agentica

Insieme a Deep Research, Google ha mostrato in anteprima ristretta Project Mariner: un'estensione Chrome che permette a Gemini di controllare direttamente il browser dell'utente — cliccare, scrollare, compilare form, completare flussi di acquisto o prenotazione. È la risposta diretta a Claude Computer Use di Anthropic (ottobre 2024) e a OpenAI Operator (gennaio 2025). Il posizionamento di Google è leggermente diverso: Mariner opera dentro il browser dell'utente, non in un ambiente sandbox remoto, il che semplifica autenticazione e cookie ma alza il rischio in caso di prompt injection.

Sul fronte coding arriva Jules, un agente asincrono per GitHub che prende in carico issue, esplora il repository, propone una pull request. E sul fronte multimodale Google estende Project Astra, l'assistente vocale-visivo basato su Gemini, con memoria di sessione fino a dieci minuti e capacità di vedere ciò che la fotocamera del telefono inquadra. Il framework comune è chiaro: l'AI non è più solo una chat box, è un layer di esecuzione che opera attraverso interfacce e tempi diversi.

Il deficit storico di Google, rivisitato

Tra gli osservatori del settore circola da anni un'osservazione amara su Google: "primi a inventarlo, ultimi a rilasciarlo". Il paper Transformer (2017), BERT (2018), il primo lavoro serio sui modelli di linguaggio su larga scala — tutto nato a Mountain View. Eppure è stata OpenAI a definire l'agenda di mercato con ChatGPT a fine 2022, e Google ha rincorso per due anni con Bard, poi Gemini 1.0, poi 1.5. Il rilascio di Gemini 2.0 a dicembre 2024 rappresenta il momento in cui questo divario si chiude almeno sul piano tecnico, e in alcune aree (multimodalità nativa, integrazione Workspace, costo per token) Google torna in vantaggio.

La sfida residua è la distribuzione del prodotto: avere il modello migliore non basta se l'integrazione in Search resta cauta per non cannibalizzare il business pubblicitario, se Gmail e Docs introducono Gemini con un'esperienza meno fluida di ChatGPT, se gli sviluppatori percepiscono l'API Google come meno stabile di quella OpenAI. Il 2025 è l'anno in cui questi nodi diventano la vera variabile competitiva — il modello, sul piano puro, è ormai allineato.

Link alla fonte originale

Google DeepMind — Gemini →

Pagina ufficiale della famiglia Gemini, con link agli annunci di Gemini 2.0 Flash, Deep Research, Project Mariner e Astra (dicembre 2024).