ElevenLabs — Clonazione Vocale AI e il Problema dei Deepfake Audio

Cos'è: ElevenLabs è una startup di sintesi vocale AI fondata nel 2022 dai polacchi Piotr Dabkowski e Mati Staniszewski. La sua tecnologia permette di clonare una voce umana da un campione di appena 60 secondi di audio e di sintetizzare qualsiasi testo in quella voce con qualità praticamente indistinguibile dall'originale. Il lancio pubblico è avvenuto nel gennaio 2023; nel 2024 ha raccolto $80 milioni in un Series B.

Cosa rende ElevenLabs tecnicamente rilevante

Il text-to-speech esisteva già da decenni — pensa alle voci robotiche dei primi navigatori o degli screen reader. Il salto qualitativo di ElevenLabs è su due fronti simultanei: qualità e accessibilità. La qualità è paragonabile a una registrazione professionale in studio, con modulazione emotiva convincente — la voce sale su una domanda, rallenta su un'affermazione importante, esprime sorpresa o tristezza in modo naturale. L'accessibilità è altrettanto dirompente: non servono costosi studi di registrazione, attori professionisti, sessioni di ADR — basta caricare un campione audio e il sistema fa il resto.

I modelli di ElevenLabs supportano oltre 29 lingue con accenti regionali controllabili, consentono di regolare stabilità ed esagerazione espressiva tramite parametri, e producono output in alta qualità (fino a 192kbps). La latenza è sufficientemente bassa da consentire applicazioni in quasi-tempo reale.

I casi d'uso legittimi: un mercato enorme

Audiobook: Narrare un libro con voce professionale costava tradizionalmente migliaia di euro tra casting, studio e post-produzione. ElevenLabs lo riduce a ore. Audible e altri distributori hanno iniziato a etichettare i titoli narrati con AI, ma il mercato è esploso — soprattutto per libri di nicchia che prima non sarebbero mai stati convertiti in audio.

Dubbing cinematografico: La localizzazione di serie e film richiede doppiatori nativi, registi di doppiaggio, sincronizzazione labiale. ElevenLabs e sistemi analoghi promettono dubbing automatico multilingue mantenendo il timbro dell'attore originale. Ancora imperfetto su scene emotive complesse, ma funzionale per documentari, contenuti educativi, corporate video.

Accessibilità: Persone con disabilità vocali possono clonare la propria voce prima di perderla (ad esempio in caso di diagnosi di SLA) e continuare a comunicare con la propria voce nel tempo. È un caso d'uso profondamente umano che giustifica da solo l'esistenza della tecnologia.

Content creation: Podcast, video YouTube, corsi online — la produzione di contenuti audio è diventata accessibile a chiunque abbia un'idea e una connessione internet.

I problemi immediati: il deepfake del Presidente Biden

Gennaio 2023, pochi giorni dopo il lancio pubblico di ElevenLabs: circola un audio di Joe Biden che sconsiglia ai democratici del New Hampshire di votare alle primarie. La voce è convincente. È un deepfake audio prodotto con ElevenLabs — o uno strumento analogo — e diffuso tramite robocall. L'episodio fu immediatamente riconosciuto come falso, ma dimostrò la facilità con cui la tecnologia poteva essere weaponizzata in contesti politici.

In seguito sono emersi deepfake audio di Scarlett Johansson, di vari CEO e personalità pubbliche. La soglia tecnica per produrre un audio convincente di chiunque abbia mai parlato in pubblico — e praticamente chiunque ha registrazioni vocali disponibili online — è diventata bassissima.

Il problema BEC: quando il CEO chiama il CFO

Il Business Email Compromise (BEC) è da anni la truffa aziendale più redditizia al mondo secondo l'FBI. Il schema classico: l'attaccante compromette o imita l'email del CEO e scrive al CFO chiedendo un bonifico urgente e riservato. Le aziende hanno imparato a essere scettiche sulle email — ma la voce è un canale diverso, percepito come più autentico.

Il caso documentato più grave: una multinazionale con sede a Hong Kong ha perso $25 milioni in una truffa in cui i dipendenti hanno partecipato a una videochiamata con quello che credevano fosse il CFO e altri colleghi — tutti deepfake audio e video. I dipendenti hanno effettuato bonifici ritenendo di aver ricevuto istruzioni verificate dal vivo.

Le misure di difesa emergenti includono: parole d'ordine segrete condivise fuori banda per autorizzare operazioni finanziarie sensibili, verifica multicanale obbligatoria (email + chiamata + messaggio su piattaforma interna), policy aziendali che vietano autorizzazioni finanziarie basate su singola fonte vocale.

La risposta di ElevenLabs

ElevenLabs ha risposto agli abusi con un pacchetto di misure: un AI Speech Classifier gratuito per rilevare audio sintetici, watermarking impercettibile incorporato nell'audio generato (inudibile ma rilevabile algoritmicamente), policy d'uso più restrittive con verifica dell'identità per la clonazione vocale, e un programma di segnalazione degli abusi. Quanto queste misure siano efficaci contro attori determinati è discutibile — il watermarking può essere degradato, i detection tool hanno falsi negativi — ma rappresentano uno sforzo concreto di responsabilizzazione.

Il dilemma irrisolvibile

ElevenLabs non è la sola: Resemble AI, Replica Studios, Adobe Podcast (con il suo Speech Enhancement), e persino strumenti open source come Coqui TTS offrono capacità simili. Vietare ElevenLabs non risolve il problema — risolverebbe solo il problema di ElevenLabs. La tecnologia è nella natura della direzione in cui si muovono i modelli generativi audio. Il dilemma è strutturale: la stessa capacità che permette a un paziente con SLA di mantenere la propria voce permette a un truffatore di imitare il tuo CEO. Non esiste una configurazione tecnologica che abiliti solo il primo caso e impedisca il secondo.

Link alla fonte originale

ElevenLabs — elevenlabs.io →

ElevenLabs offre un piano gratuito con 10.000 caratteri/mese. I piani a pagamento partono da $5/mese. La clonazione vocale professionale richiede piani Starter o superiori con verifica dell'identità.