The New York Times vs OpenAI — La Prima Grande Causa sul Copyright AI

Cos'è: La causa legale depositata il 27 dicembre 2023 dal New York Times contro OpenAI e Microsoft nel distretto sud di New York. Prima azione legale di una grande testata giornalistica contro i principali sviluppatori di AI generativa, accusati di aver usato milioni di articoli protetti da copyright per addestrare i modelli linguistici senza autorizzazione e senza compenso.

I fatti: cosa è successo il 27 dicembre 2023

Il New York Times deposita un atto di causa federale contro OpenAI Inc., Microsoft Corporation e le loro affiliate. L'accusa centrale: i modelli GPT sono stati addestrati su decine di milioni di articoli NYT protetti da copyright senza che la testata avesse dato il consenso e senza alcun compenso economico. La causa non chiede solo danni simbolici: chiede miliardi di dollari e, cosa più radicale, la distruzione dei modelli addestrati su materiale NYT.

Non è una mossa improvvisa. Nei mesi precedenti il NYT aveva tentato di negoziare un accordo con OpenAI — come aveva fatto l'Associated Press a luglio 2023 — ma le trattative si erano arenate. A quel punto la testata ha scelto la via giudiziaria.

Le prove allegate: ChatGPT che riproduce articoli interi

La parte più spettacolare dell'atto di causa è la documentazione allegata. I legali del NYT mostrano decine di casi in cui ChatGPT, opportunamente sollecitato, riproduce verbatim interi articoli del giornale — articoli a pagamento, dietro paywall, che normalmente richiederebbero un abbonamento. Il meccanismo: un utente chiede a ChatGPT di continuare l'incipit di un articolo NYT, e il modello completa il testo con la versione originale, parola per parola.

Questo è tecnicamente rilevante: se un modello può restituire il testo originale quasi alla lettera, significa che lo ha memorizzato durante il training, non che ha "capito" il contenuto in modo astratto. L'argomentazione legale: non è una rielaborazione creativa (potenzialmente fair use), è una riproduzione quasi letterale. Il che configura una violazione diretta del copyright, non una zona grigia.

OpenAI, nei mesi seguenti, introdurrà misure per ridurre la memorizzazione verbatim. Ma l'evidenza raccolta prima di quelle misure è già agli atti.

La risposta di OpenAI: "fair use" e il precedente Google Books

OpenAI ha risposto sulla linea del fair use: l'addestramento di un modello su testi pubblicamente accessibili è trasformativo, come la ricerca accademica o la critica letteraria. Non vende gli articoli del NYT — crea qualcosa di nuovo. L'analogia citata: Google ha scansionato milioni di libri per Google Books, ha vinto la causa con Authors Guild (Authors Guild v. Google, 2015) proprio sul fair use, e il servizio esiste tuttora.

Il problema è che il parallelo è imperfetto. Google Books mostra snippet, non riproduce il testo integrale su richiesta. E il fatto che ChatGPT possa restituire articoli interi mina precisamente la difesa trasformativa: se il modello può riprodurre l'originale, non ha solo "imparato" da esso.

Perché questa causa è diversa dalle precedenti

Altre cause erano già in corso contro AI generativa nel 2023: artisti contro Midjourney e Stability AI, Sarah Silverman e altri autori contro Meta e OpenAI. Ma la causa NYT è qualitativamente diversa per tre ragioni:

Dimensioni economiche: il NYT ha risorse legali quasi illimitate e un archivio documentale di prove estremamente solido.
Impatto sul mercato: una vittoria del NYT potrebbe obbligare OpenAI a negoziare accordi di licenza con ogni grande editore — trasformando radicalmente l'economia del training AI.
La richiesta di distruzione dei modelli: nessuna causa precedente aveva chiesto la cancellazione dei pesi del modello. È una richiesta di rimedio che non ha precedenti nell'industria del software.

Il panorama degli accordi: chi paga e chi fa causa

Mentre il NYT sceglieva la via legale, altri editori sceglievano quella commerciale. A luglio 2023 l'Associated Press firma un accordo pluriennale con OpenAI per l'accesso all'archivio storico. A dicembre 2023 Le Monde e Prisa Media (editore di El País) annunciano partnership con OpenAI. Reuters ha seguito. Il Financial Times ha stretto un accordo nel 2024.

Questo crea una divisione nel settore editoriale: chi decide che è meglio monetizzare il contenuto storico tramite accordi commerciali, e chi — come il NYT — ritiene che il precedente legale valga più di qualsiasi pagamento immediato. La logica del NYT: se si stabilisce per via giudiziaria che il training richiede licenza, tutti gli editori beneficiano — non solo quelli che hanno firmato accordi individuali.

Le implicazioni a lungo termine

La causa potrebbe richiedere anni per arrivare a sentenza definitiva, con probabili appelli fino alla Corte Suprema. I possibili esiti sono radicalmente diversi tra loro:

Vittoria NYT: il training su contenuti protetti richiede licenza esplicita. L'AI industry deve rinegoziare l'accesso a tutto l'archivio testuale su cui si basa. I costi di training esplodono. I modelli chiusi avvantaggiati rispetto all'open source.
Vittoria OpenAI: il fair use copre il training AI. Gli editori perdono la leva legale e devono accettare accordi commerciali dall'inevitabile posizione di debolezza.
Accordo stragiudiziale: l'esito più probabile secondo molti osservatori — OpenAI paga una cifra riservata, il NYT ritira la causa, nessun precedente legale viene stabilito.

Nel frattempo, la causa ha già avuto effetti: ha accelerato le negoziazioni tra OpenAI e altri editori, ha spinto il Congresso USA a tenere hearings sul copyright AI, e ha reso il "problema dei dati di training" una questione mainstream nella discussione sulla regolamentazione dell'AI.

Chi paga per il contenuto su cui si addestra l'AI?

Questa è la domanda fondamentale che la causa porta in primo piano. Il web, così com'è costruito, è stato creato da milioni di autori, giornalisti, scrittori che producevano contenuto per essere letto da umani. I LLM hanno consumato quell'intero archivio per costruire sistemi che ora competono con le stesse fonti su cui si sono addestrati. È la tensione strutturale dell'AI generativa: dipende dal contenuto umano pregresso, ma non ha un meccanismo per compensare chi quel contenuto lo ha prodotto. La causa NYT è il primo tentativo serio di forzare una risposta giuridica a questa tensione.

Link alla fonte originale

nytimes.com — The New York Times vs OpenAI →

Articolo originale su nytimes.com (potrebbe richiedere abbonamento). L'atto di causa completo è pubblicamente disponibile sul sistema PACER del distretto sud di New York. EN.