Roman Yampolskiy — L'AI come Sistema Fondamentalmente Incontrollabile

Chi è: Roman Yampolskiy è professore associato di computer engineering alla University of Louisville, in Kentucky. Lavora su AI safety dai primi anni Duemila, prima che il campo fosse riconoscibile come tale. È autore di oltre cento paper accademici e di diversi libri, tra cui Artificial Superintelligence: A Futuristic Approach (2015) e AI: Unexplainable, Unpredictable, Uncontrollable (2024). La sua posizione è la più estrema tra i ricercatori AI safety mainstream: stima la probabilità di catastrofe da AI superintelligente sopra il 99 percento, e sostiene che il problema dell'allineamento non sia "difficile" ma formalmente irrisolvibile. È un outlier — anche tra i pessimisti — ma il suo lavoro ha framework matematici sufficientemente rigorosi da non poter essere semplicemente liquidato.

Il percorso accademico e la specializzazione precoce

Yampolskiy entra in università negli Stati Uniti dalla Russia/Lettonia, ottiene un PhD in computer science alla University at Buffalo nel 2008. Il suo dottorato non è su AI safety — è su biometric verification e behavioral patterns. La transizione verso AI safety avviene gradualmente nella seconda metà degli anni 2000, quando comincia a pubblicare sui problemi di sicurezza dei sistemi AI futuri, in un'epoca in cui il campo non esisteva ancora come disciplina riconosciuta.

Nei primi anni 2010, mentre Yudkowsky e MIRI lavorano su AI alignment in modo non accademico, e mentre Nick Bostrom prepara il libro Superintelligence (2014) dal suo istituto di Oxford, Yampolskiy è uno dei pochissimi a portare questi temi nei circuiti universitari mainstream. Pubblica su conferenze peer-reviewed, supervisiona dottorandi su AI safety, costruisce un curriculum accademico tradizionale attorno a un argomento che la maggior parte dei suoi colleghi considera fantascientifico. Questa traiettoria — accademica, peer-reviewed, dentro un dipartimento di ingegneria — è importante: distingue Yampolskiy dai think tank e dai centri di ricerca privati, e gli dà una legittimità formale che alcuni dei suoi colleghi più pubblicamente noti non hanno.

"On Controllability of Artificial Intelligence": la tesi formale

Il paper più citato di Yampolskiy è "On Controllability of Artificial Intelligence", pubblicato in forma di working paper nel 2020 e poi raffinato fino al 2022. La tesi centrale è formulata come un teorema: un'AI superintelligente non è semplicemente difficile da controllare; è formalmente incontrollabile. Il ragionamento procede per dimostrazione strutturata.

Yampolskiy distingue quattro tipi di controllo: controllo esplicito (l'AI fa esattamente quello che le viene detto), controllo implicito (l'AI fa quello che vorremmo, anche se non glielo diciamo esplicitamente), controllo allineato (l'AI condivide i nostri valori), e controllo delegato (l'AI ottimizza per nostro benessere come lo definirebbe il nostro io più riflessivo). Per ciascuno dei quattro tipi, dimostra che esistono ostacoli formali insuperabili nel caso di superintelligenza.

Il controllo esplicito fallisce per ragioni di specificazione: non possiamo descrivere in linguaggio formale tutti i comportamenti che vogliamo o non vogliamo. Il controllo implicito fallisce per il teorema di Gödel-like sull'impossibilità di un sistema di prevedere completamente un sistema più complesso di sé stesso. Il controllo allineato fallisce perché non c'è consenso umano su quali siano i valori da allineare. Il controllo delegato fallisce perché un sistema sufficientemente intelligente troverebbe modi di interpretare "benessere umano" che noi non riconosceremmo come tale ex ante ma che ex post sarebbero troppo tardi da correggere.

L'argomentazione è formalmente rigorosa, ma alcuni critici sostengono che sia circolare: assume che la superintelligenza sia capace di trovare exploit a ogni vincolo di controllo, e da quella assunzione conclude che è incontrollabile. Yampolskiy risponde che l'assunzione è giustificata dalla definizione stessa di superintelligenza — un sistema che, per definizione, supera gli umani in ogni dominio cognitivo, incluso il dominio "trovare exploit nei sistemi di controllo costruiti dagli umani".

Il libro del 2024: tre proprietà fondamentali

A inizio 2024 Yampolskiy pubblica "AI: Unexplainable, Unpredictable, Uncontrollable" per CRC Press. Il libro estende l'argomento del 2022 a tre proprietà che, secondo l'autore, caratterizzano qualsiasi sistema AI sufficientemente capace e che si rafforzano l'una con l'altra.

Unexplainable: il sistema non può fornire spiegazioni delle proprie decisioni che siano allo stesso tempo accurate e comprensibili per gli umani. Le sue decisioni si basano su rappresentazioni interne — vettori in spazi ad alta dimensione — che non hanno corrispettivi diretti nel linguaggio umano. Qualsiasi spiegazione fornita è una traduzione approssimativa, non la verità del processo decisionale.

Unpredictable: il comportamento del sistema in input mai visti non è prevedibile in dettaglio. Possiamo stimare probabilità su grandi popolazioni di input, ma per ogni singolo input nuovo l'output specifico è essenzialmente imprevedibile. Questo non è un limite tecnico risolvibile con più ricerca: è una conseguenza strutturale della complessità del sistema.

Uncontrollable: come argomentato nel paper del 2022, nessun meccanismo di controllo è formalmente sufficiente. La combinazione delle prime due proprietà (non spiegabile, non prevedibile) implica che gli interventi correttivi umani arriveranno sempre dopo aver osservato comportamenti problematici — e per un sistema sufficientemente capace, "dopo" può essere troppo tardi.

Posizionamento nel campo AI safety

Yampolskiy è un outlier anche tra i pessimisti. Confrontarlo con figure adiacenti rende chiara la sua posizione.

Rispetto a Yudkowsky, Yampolskiy è più accademico e meno mediatico. Yudkowsky scrive su Time, fa podcast, partecipa al dibattito pubblico in modo provocatorio. Yampolskiy pubblica su riviste peer-reviewed, presenta a conferenze, scrive libri tecnici. Le conclusioni sono simili — entrambi pensano che il rischio sia esistenziale e che le contromisure attuali siano gravemente insufficienti — ma il registro è completamente diverso. Chi diffida dello stile di Yudkowsky può trovare in Yampolskiy una versione più digeribile della stessa preoccupazione.

Rispetto a Bostrom, Yampolskiy è meno filosofico e più operativo. Superintelligence di Bostrom (2014) è una mappa concettuale di possibili rischi e contromisure, scritta in registro accademico-filosofico. Yampolskiy va oltre: cerca di dimostrare risultati di impossibilità formale, non solo di mappare scenari. Bostrom dice "questo è difficile e dovremmo preoccuparci"; Yampolskiy dice "questo è impossibile e dovremmo agire di conseguenza".

Rispetto a FLI (Future of Life Institute) e CAIS (Center for AI Safety), Yampolskiy stima p(doom) molto più alto. FLI tipicamente cita numeri tra il 10 e il 30 percento, CAIS ha pubblicato statement aggregati di ricercatori con probabilità nello stesso range. Yampolskiy va oltre il 99 percento. Questo lo posiziona oltre il consenso anche pessimista del campo.

Critiche e contro-critiche

Il lavoro di Yampolskiy ha ricevuto critiche sostanziali da diverse direzioni.

La critica tecnica più ricorrente è la circolarità degli argomenti. Se assumiamo che la superintelligenza possa fare qualsiasi cosa, allora ovviamente nessun meccanismo di controllo funziona. Ma questa è un'assunzione, non un teorema. Yampolskiy risponde che l'assunzione è implicita nella definizione di superintelligenza, e che chi vuole rifiutarla deve specificare un limite cognitivo che la superintelligenza non potrebbe superare — un esercizio che, nota lui, finora nessuno ha completato in modo convincente.

La critica empirica è che i sistemi AI attuali, anche i più capaci, non mostrano i comportamenti predetti dal framework Yampolskiy. Non emergono obiettivi propri, non manifestano deception sistematica, non sembrano impossibili da controllare nel senso operativo. Yampolskiy risponde che i sistemi attuali non sono ancora superintelligenti, e quindi non costituiscono un test della teoria: i risultati di impossibilità si applicano a sistemi qualitativamente più capaci, non agli LLM del 2025.

La critica strategica è che pubblicare risultati di impossibilità è controproducente — induce fatalismo, scoraggia la ricerca su alignment, demotiva chi lavora sul problema. Yampolskiy risponde che la verità è preferibile alla speranza falsa, e che se il problema è formalmente irrisolvibile la conclusione corretta è non costruire i sistemi che lo pongono, non fingere che la ricerca su alignment risolverà qualcosa che non può risolvere.

L'influenza politica indiretta

Nonostante la posizione di outlier accademico, le idee di Yampolskiy hanno avuto influenza politica indiretta significativa nel 2024-2025. L'executive order di Trump del 2025 su AI safety — pur orientato verso deregulation rispetto a quello di Biden del 2023 — contiene riferimenti a rischi di "loss of control" che riprendono il vocabolario di Yampolskiy. Diversi think tank conservatori hanno citato il suo lavoro come fondamento intellettuale di policy che mirano a rallentare lo sviluppo di sistemi AI molto capaci.

La citazione non è sempre esplicita, ma il framework è riconoscibile: l'idea che certi sistemi AI sufficientemente capaci siano per loro natura rischio per la sovranità statale e per il controllo democratico è un'idea Yampolskiy-style, distinta sia dalle preoccupazioni economiche (mainstream) sia dalle preoccupazioni etiche/bias (progressista). È un esempio di come una posizione accademica radicale possa influenzare il discorso pubblico anche quando non è mai citata direttamente.

Perché leggerlo, anche se non si è d'accordo

Yampolskiy è probabilmente sbagliato su molti dei numeri specifici — un p(doom) sopra il 99 percento richiede un livello di certezza su questioni profondamente incerte che la maggior parte degli osservatori giudica eccessivo. Ma il framework che articola — la distinzione tra controllo esplicito, implicito, allineato e delegato; le proprietà di unexplainability e unpredictability; l'idea che alcune limitazioni siano formali e non tecniche — è prezioso come strumento analitico anche per chi rifiuta le conclusioni più estreme.

Leggere Yampolskiy serve a stress-testare il proprio ottimismo. Se si pensa che il problema dell'allineamento sarà risolto, quale meccanismo specifico lo risolverà? Quale dimostrazione tecnica garantirà che un sistema futuro sia sicuro? Le risposte facili ("RLHF funziona", "Constitutional AI scala", "interpretability progredisce") non sopravvivono a un confronto serio con le obiezioni di Yampolskiy. Questo non significa che le sue conclusioni siano giuste — significa che le obiezioni sono serie, e che chi vuole essere ottimista in modo intellettualmente onesto deve confrontarsi con esse.

Link alla fonte originale

engineering.louisville.edu — Pagina di facoltà di Roman Yampolskiy →

Include lista completa delle pubblicazioni, link ai paper su arXiv e a interviste. EN. Il libro del 2024 "AI: Unexplainable, Unpredictable, Uncontrollable" è pubblicato da CRC Press / Taylor & Francis.