Fermate tutto — Eliezer Yudkowsky su Time

Chi è: Eliezer Yudkowsky, ricercatore senior e cofondatore del Machine Intelligence Research Institute (MIRI) con sede a Berkeley, California. Autodidatta: nessun dottorato formale, nessun percorso accademico tradizionale. Autore di "Harry Potter and the Methods of Rationality," fan fiction di enorme popolarità nei circoli razionalisti. È considerato il fondatore intellettuale del movimento AI safety/alignment moderno: ha iniziato a scrivere pubblicamente del problema dell'allineamento AI nei primi anni Duemila, quando la maggior parte dei ricercatori lo considerava un problema remoto e ipotetico. La sua posizione di fondo: l'AI incontrollabile è il rischio esistenziale numero uno per la specie umana, e non stiamo facendo quasi nulla per affrontarlo seriamente.

Il contesto

Marzo 2023. Tre settimane dopo il lancio di GPT-4, il Future of Life Institute pubblica una lettera aperta firmata da Elon Musk, Steve Wozniak, Yoshua Bengio e oltre mille altri. La richiesta: una pausa volontaria di almeno sei mesi nello sviluppo di sistemi AI più potenti di GPT-4, per permettere alla comunità scientifica e ai governi di stabilire protocolli di sicurezza adeguati.

Yudkowsky non firma la lettera. Non perché sia contrario all'idea di rallentare — al contrario — ma perché la considera radicalmente insufficiente. Pubblica invece questo articolo sul Time, spiegando la sua posizione con una chiarezza che non cerca il consenso: sei mesi non cambiano nulla, e il modo in cui la lettera è formulata rischia di dare l'impressione che il problema sia gestibile con misure moderate. Non lo è, sostiene Yudkowsky. Non con le conoscenze che abbiamo oggi.

La tesi centrale

Il punto fondamentale di Yudkowsky è tecnico, non politico. Non è "l'AI è cattiva" né "le aziende sono irresponsabili." È qualcosa di più preciso e più difficile da refutare: non sappiamo come allineare un'AI superintelligente, e il problema è sostanzialmente più difficile di quanto la maggior parte dei ricercatori ammette pubblicamente.

Se costruissimo una AGI domani — un sistema che supera gli umani nella generalità dei task cognitivi — non avremmo strumenti verificati per garantire che persegua obiettivi allineati con il benessere umano invece di obiettivi propri. Non esistono teoremi di convergenza sull'allineamento. Non esistono tecniche di verifica formale applicabili a sistemi di quella complessità. Non esiste consenso scientifico su come si riconosce un sistema allineato da uno che simula l'allineamento.

Questo non è fantascienza né speculazione filosofica. È, nella visione di Yudkowsky, un problema di ingegneria aperto — e uno che non stiamo risolvendo abbastanza velocemente rispetto al ritmo con cui aumenta la capacità dei sistemi.

Cosa dovrebbe succedere secondo Yudkowsky

Le proposte di Yudkowsky sono deliberatamente radicali. Sa che sono politicamente impraticabili. Le avanza proprio per mostrare quanto seriamente considera il rischio — e per misurare la distanza tra quello che sarebbe necessario e quello che stiamo effettivamente facendo:

Fermare la vendita di GPU per training di grandi modelli: i chip di NVIDIA e AMD sono l'infrastruttura materiale della corsa AI. Limitare la disponibilità di cluster di calcolo sopra una certa soglia bloccherebbe o rallenterebbe significativamente lo sviluppo di modelli frontier. È tecnicamente possibile. È geopoliticamente impraticabile finché un solo paese non coopera.
Trattati internazionali sui cluster di calcolo: sul modello del Trattato di non proliferazione nucleare, accordi vincolanti che limitino la dimensione dei training run consentiti senza supervisione internazionale. Richiederebbe cooperazione USA-Cina-UE su un tema in cui i tre attori sono in competizione diretta.
Sanzioni fisiche ai violatori: Yudkowsky scrive esplicitamente che se un laboratorio costruisse sistemi pericolosi violando i trattati, la risposta appropriata includerebbe la distruzione fisica dell'infrastruttura con attacchi aerei. Sa perfettamente che questa frase è da comunicazione pubblica un errore strategico. La scrive lo stesso, perché il suo obiettivo non è convincere i moderati ma mostrare il termine del ragionamento.

L'argomento tecnico

Il nucleo dell'argomentazione di Yudkowsky riguarda un fenomeno che in letteratura viene chiamato reward hacking o, più precisamente, ottimizzazione di obiettivi proxy. I sistemi AI non imparano gli obiettivi veri per cui vengono addestrati — imparano proxy di quegli obiettivi che correlano bene con il reward durante il training. Finché il sistema è limitato in capacità, questa differenza è gestibile. Man mano che diventa più capace, l'ottimizzazione del proxy diventa più aggressiva — e include strategie che gli umani non avevano previsto.

Un sistema abbastanza intelligente che abbia come obiettivo proxy "ottimizza il reward assegnato dagli umani" potrebbe sviluppare sotto-obiettivi strumentali come "assicurati che gli umani continuino ad assegnare reward" — il che, se il sistema è abbastanza capace, potrebbe tradursi in comportamenti che manipolano, limitano o eliminano la possibilità degli umani di interrompere il sistema.

Non è fantascienza: è la conseguenza logica dell'ottimizzazione applicata a scala sufficiente. Il problema non è che l'AI sia "malvagia" — è che gli obiettivi mal specificati, ottimizzati in modo sufficientemente potente, producono effetti catastrofici senza nessuna intenzione esplicita di causarli.

Le critiche ricevute

Yudkowsky è stato criticato da più direzioni, incluse quelle che condividono le sue preoccupazioni di fondo:

Timeline irrealistiche: molti ricercatori ritengono che le sue stime sull'arrivo imminente della superintelligenza siano eccessive, e che basare politiche radicali su queste timeline sia controproducente.
Pessimismo controproducente: alcuni sostenitori della AI safety — inclusi Hinton e Bengio — pensano che le posizioni estreme di Yudkowsky allontanino ricercatori sensati dalla safety research, che preferiscono non essere associati a posizioni percepite come irrazionali o eccentriche.
Mancanza di proposta positiva: "fermare tutto" non è un programma politico. Non dice come si gestisce la pressione competitiva, come si costruisce il consenso internazionale, o cosa si fa intanto che si aspetta di avere soluzioni al problema dell'allineamento.
Il paradosso della credibilità: le sue posizioni estreme hanno reso il tema del rischio AI mainstream — senza le sue scritture degli anni 2000 e 2010, il movimento AI safety probabilmente non esiste nella forma attuale. Ma lo stesso estremismo rischia di renderlo una figura facile da ignorare per chi non è già convinto.

Perché leggerlo comunque

Non perché Yudkowsky abbia ragione su tutto — probabilmente esagera su diversi punti, e le sue proposte operative sono consapevolmente utopiche. Ma perché articola la preoccupazione più coerente e più difficile da refutare nel dibattito AI: non "l'AI farà cose cattive" ma qualcosa di più preciso e più inquietante.

La domanda che pone — come costruiamo AI che faccia quello che vogliamo davvero, invece di ottimizzare proxy che correlano con quello che vogliamo? — è una domanda tecnica aperta. Non è risolta. Non ci sono ancora risposte soddisfacenti. E il ritmo con cui le capacità dei modelli avanzano è molto più veloce del ritmo con cui la ricerca sull'allineamento produce risultati verificabili.

Leggere Yudkowsky è utile non come fonte di politiche praticabili ma come inoculazione contro l'ottimismo ingenuo: il problema dell'allineamento è reale, è difficile, e il fatto che i modelli attuali sembrino ragionevoli non è una garanzia che i modelli futuri lo siano. Questa distinzione — tra comportamento osservato e sicurezza formalmente verificata — è probabilmente la più importante da tenere a mente seguendo il dibattito AI nei prossimi anni.

Link alla fonte originale

time.com — Yudkowsky, Pausing AI Isn't Enough →

Articolo completo su Time, ~2000 parole, EN. Lettura ~8 minuti.