ChatGPT Operator — OpenAI Lancia l'Agente che Naviga il Web per Te

Cos'è: Operator è il primo agente general-purpose annunciato da OpenAI, presentato il 23 gennaio 2025. Disponibile in research preview agli abbonati al tier ChatGPT Pro (200 dollari al mese), Operator è capace di controllare un browser web autonomamente per portare a termine task come prenotazioni, shopping, ricerca e compilazione di form. È costruito sopra un nuovo modello chiamato Computer-Using Agent (CUA).

Da Computer Use a Operator: la corsa agli agenti

Il pattern "AI che controlla un computer" non nasce con OpenAI. Ad ottobre 2024 Anthropic ha rilasciato in beta Claude Computer Use, capace di muovere mouse, cliccare e digitare su uno schermo virtuale. Pochi mesi prima Google aveva mostrato Project Mariner, estensione Chrome che permette a Gemini di operare nel browser dell'utente. Operator di OpenAI arriva quindi come terzo grande player nella categoria, ma è il primo a portarla a un prodotto consumer mainstream sotto il brand ChatGPT.

Il vantaggio competitivo che OpenAI rivendica è duplice. Sul lato modello, il Computer-Using Agent è addestrato specificamente sull'interazione con interfacce grafiche tramite visione: invece di leggere il DOM o usare API specifiche, vede gli screenshot del browser e ragiona su dove cliccare e cosa digitare, in modo da poter operare su qualsiasi sito web senza richiedere integrazioni dedicate. Sul lato prodotto, Operator vive dentro ChatGPT — l'app di consumer-AI con il maggior numero di utenti al mondo — ed è quindi immediatamente accessibile a una base utenti enorme di abbonati Plus e Pro.

Come funziona: la sessione browser remota

Quando l'utente avvia un task, Operator apre una sessione browser virtuale in un container remoto controllato da OpenAI. L'utente vede in real time gli screenshot del browser, le azioni che l'agente sta eseguendo (movimenti del cursore, click, digitazione, scroll) e i ragionamenti intermedi del modello in chat. Il task tipico — "prenota un volo Milano-Roma per giovedì pomeriggio, classe economy, andata e ritorno entro 200 euro" — viene eseguito in pochi minuti, durante i quali Operator naviga su siti di prenotazione, confronta opzioni, filtra risultati.

Alcuni momenti del workflow richiedono handoff all'utente: prima di compiere acquisti, prima di inserire dati di pagamento, prima di accettare termini contrattuali, prima di inviare email a nome dell'utente, Operator si ferma e chiede conferma esplicita. Anche il login a servizi che richiedono autenticazione passa per la mano dell'utente, perché Operator non ha (e non vuole avere) accesso diretto alle credenziali. È una scelta di design che riduce l'autonomia teorica ma che, secondo OpenAI, è necessaria per ottenere fiducia da parte degli early adopter.

Casi d'uso e benchmark

Gli use case mostrati al lancio sono i classici del segmento "personal assistant": prenotazione di voli e ristoranti, ordini su DoorDash e Instacart, ricerca di prodotti su Amazon e siti e-commerce, compilazione di form complessi, raccolta di informazioni distribuite su più siti web. OpenAI ha mostrato benchmark proprietari (WebArena, WebVoyager) in cui CUA supera sia GPT-4o standard che gli agenti di altri laboratori, con margini significativi su task multi-step. I tassi di successo restano però moderati: su WebVoyager il modello completa correttamente circa l'87% dei task, contro il 56% del baseline GPT-4 e ben sotto la performance umana media.

La differenza pratica rispetto a Claude Computer Use, secondo le prime recensioni indipendenti, è che Operator è ottimizzato esplicitamente per il browser e per task consumer (booking, shopping), mentre Claude Computer Use mira più genericamente al controllo del desktop e a use case sviluppatore. Project Mariner di Google, dal canto suo, ha il vantaggio di operare dentro il browser dell'utente, ma è ancora in preview molto ristretta. Sono tre filosofie di prodotto distinte sulla stessa primitiva tecnica.

I rischi: prompt injection e supervisione umana

Il rilascio di Operator ha riaperto un dibattito di sicurezza che era già emerso con Claude Computer Use: l'agente, navigando il web aperto, è esposto a prompt injection via siti web. Un sito potrebbe contenere testo nascosto, o esplicito, che istruisce l'agente a compiere azioni dannose: trasferire fondi, esfiltrare dati, cambiare credenziali. OpenAI riconosce esplicitamente questo rischio nel system card di Operator e dichiara di aver implementato una serie di mitigazioni: classificatori che rilevano istruzioni malevole nel contenuto delle pagine, blacklist di domini sensibili, monitoraggio umano per i task che coinvolgono dati personali o pagamenti.

Le mitigazioni, però, sono imperfette: ricercatori di sicurezza indipendenti hanno mostrato nelle prime settimane dopo il lancio diversi proof-of-concept di prompt injection efficaci. Il messaggio implicito che OpenAI invia agli utenti è chiaro: per ora, supervisione umana attiva è obbligatoria su tutto ciò che riguarda denaro, dati sensibili o azioni irreversibili. Il posizionamento di Operator come "research preview" e il pricing a 200 dollari al mese — che limita l'audience a sviluppatori, power user e clienti con tolleranza al rischio — segnala che OpenAI vede questo come primo step verso agenti general-purpose realmente affidabili, non come prodotto finito. La direzione è chiara, la maturità no — ed è probabilmente il tratto che meglio definisce l'intero settore degli agenti AI all'inizio del 2025.

Link alla fonte originale

OpenAI — Introducing Operator →

Post di lancio ufficiale (23 gennaio 2025) con descrizione del Computer-Using Agent, demo video, benchmark e system card sulla sicurezza.