Gemini 1.5 Pro — 1 Milione di Token di Contesto che Cambiano l'Analisi Documentale

Cos'è: Gemini 1.5 Pro è il modello multimodale di Google DeepMind annunciato in preview a febbraio 2024, con disponibilità pubblica graduale nei mesi successivi. Il dato tecnico che lo ha reso immediatamente rilevante è la finestra di contesto: 1 milione di token al lancio, successivamente espansa fino a 2 milioni. Per confronto, GPT-4 Turbo offriva 128.000 token nello stesso periodo.

Cosa significa 1 milione di token in termini concreti

Un milione di token non è un numero intuitivo. Per dargli una scala concreta: corrisponde approssimativamente a 750.000 parole di testo, ovvero l'equivalente di circa 7-8 romanzi di media lunghezza, oppure l'intera codebase di un progetto software di dimensioni medie (50.000-100.000 righe di codice con relativi commenti e documentazione), oppure circa 11 ore di trascrizione audio, oppure 3.000 pagine di PDF.

Questo significa che per la prima volta un modello commerciale permette di inserire un documento nella sua interezza — non un estratto, non una selezione — e interrogarlo come unità coerente. Un contratto di 200 pagine con allegati, un bilancio consolidato con note integrative, una raccolta di normative di settore: tutto dentro, tutto disponibile per una singola query.

L'architettura che rende possibile questo salto è basata su Mixture of Experts (MoE) con meccanismi di attenzione efficienti — probabilmente varianti di linear attention o sparse attention — che riducono la complessità computazionale dell'attenzione da O(n²) verso qualcosa di più scalabile. Google non ha divulgato i dettagli architetturali completi, ma il paper tecnico accenna a un'architettura multi-query attention con ottimizzazioni specifiche per le lunghe sequenze.

Il needle-in-a-haystack test al 99.7%

Google ha presentato Gemini 1.5 Pro con un risultato benchmark specifico che ha attirato l'attenzione della comunità tecnica: il needle-in-a-haystack test al 99.7% di accuratezza su contesti di 1 milione di token. Il test consiste nell'inserire un'informazione specifica (il "needle") in un documento lungo (il "haystack") e verificare se il modello riesce a recuperarla indipendentemente dalla sua posizione — inizio, metà o fine del contesto.

Questo risultato è significativo perché modelli precedenti con finestre di contesto più piccole mostravano un "lost in the middle" problem: le informazioni posizionate nella parte centrale del contesto venivano recuperate con accuratezza molto inferiore rispetto a quelle all'inizio o alla fine. GPT-4 con 128k context mostrava degradazione marcata oltre i 32.000 token centrali. Gemini 1.5 Pro dichiara di mantenere una retrieval accuracy uniforme lungo tutto il contesto disponibile.

Il caveat importante: il needle-in-a-haystack test misura la capacità di retrieval di un fatto esplicito, non la comprensione profonda o la sintesi di informazioni distribuite. Un modello può passare il test con punteggi elevati e avere comunque difficoltà su task che richiedono di integrare informazioni sparse in punti diversi del documento lungo.

Capacità multimodali sui contesti lunghi

Gemini 1.5 Pro è multimodale non solo nel senso di accettare immagini singole, ma nel senso di processare sequenze lunghe di input eterogenei. Nella presentazione Google ha dimostrato:

Analisi di video interi: un film di 44 minuti inserito direttamente come video (non come trascrizione) con query sui dettagli visivi specifici — inclusa la ricerca di un evento che appare in un singolo fotogramma. Questa è una capacità qualitativamente diversa dalla comprensione di singole immagini.
Traduzione di codebase: Google ha dimostrato la traduzione di un intero gioco (Doom, scritto in C/C++) da un linguaggio a un altro, fornendo l'intera codebase come input singolo invece di lavorare file per file — evitando i problemi di incoerenza che emergono quando si traduce un file alla volta senza visione globale.
Apprendimento in-context: il modello può apprendere una nuova lingua (nel demo: Kalamang, una lingua papuana con pochi parlanti e documentazione limitata) ricevendo come input una grammatica e un dizionario, e produrre traduzioni accurate — tutto in-context, senza fine-tuning.

Costo e confronto con GPT-4 Turbo

Al lancio, i prezzi di Gemini 1.5 Pro nell'API Google AI Studio erano significativamente inferiori a GPT-4 Turbo per token processato. La struttura di pricing di Google ha differenziato tra prompt fino a 128.000 token e prompt oltre tale soglia, con un aumento di prezzo per i contesti più lunghi — ma anche nella fascia alta il costo per token rimaneva competitive rispetto a OpenAI.

La variante Gemini 1.5 Flash, annunciata contestualmente, ha ribaltato ulteriormente il calcolo economico: Flash è una versione distillata e ottimizzata per la velocità con una finestra di contesto fino a 1 milione di token, a un prezzo molto inferiore a Pro. Per use case che richiedono throughput elevato (processare migliaia di documenti al giorno) piuttosto che la massima qualità su ogni singola query, Flash ha reso le pipeline di analisi documentale accessibili a budget che prima escludevano i modelli frontier.

Limitazioni: il contesto non è sempre usato efficacemente

La finestra di 1 milione di token è una capacità tecnica, non una garanzia di performance uniforme su tutti i task. Nella pratica, chi lavora con Gemini 1.5 Pro su documenti molto lunghi osserva alcune limitazioni ricorrenti:

Prima: la qualità della sintesi degrada su query che richiedono integrazione di molte informazioni distribuite. Trovare un singolo fatto (needle-in-haystack) funziona bene; sintetizzare e confrontare 50 posizioni diverse sparse in 500 pagine produce output meno affidabili, con rischio di omissioni e approssimazioni.

Seconda: il costo computazionale aumenta con il contesto. Inviare 1 milione di token a ogni query è oneroso sia in latenza che in costo. Per applicazioni pratiche, è spesso più efficiente combinare un retrieval semantico (RAG) per identificare le sezioni rilevanti, e poi passare solo quelle a Gemini — usando il context lungo come fallback per query che richiedono visione globale.

Terza: l'allucinazione non scompare con il context lungo. Se il documento non contiene la risposta a una domanda, il modello tende comunque a produrre qualcosa di plausibile invece di dichiarare esplicitamente l'assenza dell'informazione. Il grounding sui documenti riduce ma non elimina questo comportamento.

Link alla fonte originale

Google DeepMind — Gemini Pro →

Il paper tecnico di Gemini 1.5 è disponibile su arxiv.org (2403.05530). L'API è accessibile tramite Google AI Studio (aistudio.google.com) e Google Cloud Vertex AI. La documentazione sui limiti di contesto correnti è su ai.google.dev.