Gemini Technical Report — Google torna competitiva nell'AI

Chi è: Google DeepMind — fusione di Google Brain e DeepMind avvenuta nel 2023 sotto la guida di Demis Hassabis. Gemini è il primo modello AI di Google progettato ab initio come multimodale (testo, immagini, audio, video, codice). Il team comprende centinaia di ricercatori di entrambi i laboratori fusi. Gemini 1.0 è stato annunciato il 6 dicembre 2023 con tre varianti: Ultra (più potente), Pro (bilanciato), Nano (dispositivi mobili).

La differenza architetturale: natively multimodale

GPT-4V — la versione di GPT-4 con capacità visive — era costruita aggiungendo un encoder visivo (basato su CLIP) al modello di linguaggio esistente. Le due componenti processano modalità diverse e i loro output vengono combinati, ma rimangono architetturalmente separati: il modello di linguaggio non "vede" realmente, delega la visione a un modulo specializzato.

Gemini è stato progettato dall'inizio per processare testo, immagini, audio e video come un unico modello con rappresentazioni condivise. L'analogia costruttiva: costruire una casa con fondamenta progettate per tutti i piani è diverso da aggiungere piani a una casa esistente. Entrambi possono funzionare, ma la struttura integrata ha vantaggi teorici in termini di coerenza del ragionamento cross-modale e di trasferimento di conoscenza tra modalità.

In pratica, questo significa che Gemini può svolgere task che richiedono integrazione genuina di informazioni visive e testuali — non solo "descrivi questa immagine" ma "questa equazione nella foto è corretta rispetto al testo che la precede?" — con una fluidità che i modelli con architettura modulare faticano a replicare. La multimodalità nativa era anche una risposta strategica al vantaggio di OpenAI su text: Google aveva capacità multimodali (Google Lens, Google Photos, YouTube) che poteva integrare in modo più profondo.

I tre livelli: Ultra, Pro, Nano

Gemini Ultra è il modello più capace della famiglia, addestrato su TPU v5 di Google. I risultati sui benchmark pubblicati nel report: MMLU (Massive Multitask Language Understanding, un test di conoscenza enciclopedica su 57 domini), 90% per Gemini Ultra, contro l'86,4% di GPT-4 — il primo modello a superare il livello umano medio di esperti su MMLU. Su reasoning matematico (MATH benchmark), 53,2% contro il 52,9% di GPT-4. Su HumanEval (codice), 74,4% contro il 67% di GPT-4.

Gemini Pro è il modello bilanciato, pensato per il deploy su scala API. Disponibile da gennaio 2024 attraverso Google AI Studio e Vertex AI, è poi diventato la base di Gemini 1.5 Pro. Le prestazioni su MMLU sono inferiori a Ultra (79,1%) ma superiori a GPT-3.5. Per la maggior parte degli use case aziendali, Pro è il punto di ingresso pratico.

Gemini Nano è la famiglia di modelli piccoli — 1,8B e 3,25B parametri — progettati per l'on-device inference su smartphone Android. Nano gira offline su Pixel 8 Pro: elabora testo e immagini senza inviare dati a server Google. Questo è il caso d'uso più direttamente consumer di Gemini, e l'integrazione in Android come "Gemini" (rebrand di Google Assistant) è la distribuzione più ampia del modello.

Il comunicato controverso

Il lancio di Gemini include un video dimostrativo che mostrava il modello rispondere in tempo reale a immagini mostrate davanti a una telecamera e a interazioni vocali. Il video — visivamente impressionante, con il modello che nomina oggetti, risponde a domande su disegni in corso, gioca a giochi visivi — ha avuto milioni di visualizzazioni in poche ore.

In seguito alla pubblicazione, analisti tecnici hanno notato che il video era stato editato: le interazioni erano state semplificate rispetto alle demo dal vivo, il modello non stava elaborando voce in tempo reale ma frame di immagini selezionati inviati via API con prompt testuali, e alcune risposte erano state cherry-picked da tentativi multipli. Google ha ammesso che il video era "illustrativo" delle capacità del modello, non una demo letterale del suo funzionamento.

L'episodio ha avuto un impatto reputazionale significativo: molti commentatori tecnici hanno usato il termine "misleading" nelle loro analisi. Ha anche alimentato un dibattito più ampio sulla comunicazione dei laboratori AI: i video dimostrativi sono quasi sempre costruiti per mostrare il meglio del modello in condizioni ottimali, ma il gap tra "demo video" e "prodotto reale" raramente viene dichiarato esplicitamente. Google ha gestito male la comunicazione, ma il problema è più sistemico.

Gemini 1.5 e la context window da 1M token

Febbraio 2024: Google annuncia Gemini 1.5 Pro con una context window di 1 milione di token — il valore più alto nel settore al momento del lancio, con GPT-4 Turbo a 128.000 token. 1 milione di token equivale in pratica a circa 700 pagine di testo fitto, o 1 ora di video ad alta risoluzione, o 10 ore di audio, o l'intero codebase di un progetto software medio.

Le implicazioni pratiche sono sostanziali. Per i developer, poter passare l'intero codebase nel contesto significa review end-to-end senza dover segmentare il codice. Per l'analisi di documenti legali o finanziari, passare centinaia di pagine di contratti o report in un unico prompt elimina la necessità di sistemi RAG complessi. Per la ricerca, analizzare corpus di letteratura scientifica senza preprocessing diventa possibile.

Gemini 1.5 usa architettura Mixture of Experts per gestire la context window estesa in modo computazionalmente sostenibile. Il report tecnico di 1.5 mostra che il modello mantiene accuratezza elevata anche su task che richiedono recupero di informazioni da posizioni arbitrarie nella context window — un problema noto come "lost in the middle" che affligge i modelli con context window lunga.

Google come player strutturalmente diverso

Google non è OpenAI né Anthropic. È un'azienda con 180.000 dipendenti, 280 miliardi di dollari di fatturato annuo, e una posizione dominante nei mercati che l'AI trasformerà più direttamente: ricerca web, email, documenti, mappe, video, smartphone. Questo crea un set di vantaggi e vincoli che nessun altro laboratorio AI condivide.

Vantaggi strutturali: Google possiede TPU, TensorFlow/JAX (l'infrastruttura di training usata da molti dei migliori ricercatori), dati di training di qualità e quantità senza pari (Search, YouTube, Gmail, Maps), e distribuzione su scala mondiale attraverso Android, Chrome e Google Search. Gemini non è solo un modello — è l'infrastruttura per integrare AI in tutti i prodotti Google contemporaneamente.

Vincoli strutturali: Google deve evitare di cannibalizzare Search con AI generativa — un problema che Ben Thompson ha chiamato il "Innovator's Dilemma" di Google sull'AI. Ogni risposta generata direttamente da Gemini in Search è una pagina di risultati che gli utenti non visitano, riducendo i click sugli annunci pubblicitari che sono il 75% del fatturato. La tensione tra l'obbligo di restare competitivi nell'AI e la protezione del business model pubblicitario è reale e si vedrà nelle scelte di prodotto dei prossimi anni.

Link alla fonte originale

arxiv.org/abs/2312.11805 →

Paper tecnico 62 pagine, EN. Dicembre 2023. Open access su arXiv.