AI in Healthcare — FDA, Diagnosis and the Promise of Augmented Medicine

Cos'è: La FDA (Food and Drug Administration) è l'agenzia federale americana che regola farmaci, dispositivi medici e software sanitario. Dal 2019 pubblica un aggiornamento periodico sul numero di dispositivi AI/ML approvati, diventato il termometro ufficiale della penetrazione dell'AI in medicina. I dati 2023–2024 fotografano un settore in trasformazione accelerata, con oltre 700 autorizzazioni attive.

Il dato che cambia tutto: da 6 a 700+

Nel 2015, la FDA aveva approvato esattamente 6 dispositivi medici basati su AI o machine learning. A fine 2023, quel numero aveva superato 700. La curva non è lineare: è esponenziale, con un'accelerazione marcata dal 2020 in poi, coincidente con la diffusione dei transformer e dei modelli fondativi in ambito biomedicale.

Il numero in sé sarebbe già sorprendente. Ma la qualità del cambiamento è ancora più rilevante della quantità. Nel 2015, quei 6 dispositivi erano strumenti statistici relativamente semplici, applicati a dati strutturati. Nel 2023, i dispositivi approvati includono reti neurali convoluzionali che leggono immagini diagnostiche, modelli che analizzano elettrocardiogrammi in tempo reale, sistemi che triaggiano pazienti nei pronto soccorso.

Le tre aree di punta: radiologia, dermatologia, oftalmologia

La radiologia è di gran lunga l'area con la maggiore concentrazione di dispositivi approvati. La ragione è strutturale: le immagini radiologiche sono dati digitali standardizzati, disponibili in grandi quantità, con label (diagnosi) fornite da decenni di refertazione. I modelli CNN (Convolutional Neural Networks) addestrati su milioni di radiografie, TAC e risonanze hanno dimostrato performance comparabili o superiori ai radiologi umani su task specifici.

Aidoc e Zebra Medical Vision sono due delle aziende più note in questo spazio. Aidoc opera su immagini di emergenza: il suo algoritmo analizza la TAC in arrivo e segnala automaticamente casi urgenti — embolia polmonare, emorragia cerebrale, aneurisma aortico — mettendoli in cima alla coda del radiologo. Non sostituisce la decisione umana; riduce il tempo tra acquisizione dell'immagine e lettura critica da ore a minuti. In medicina d'emergenza, quella differenza è spesso la differenza tra vita e morte o tra disabilità permanente e recupero.

In dermatologia, Google ha sviluppato DermAssist, un sistema che analizza fotografie della pelle per identificare condizioni dermatologiche tra cui il melanoma. Il precedente scientifico arriva da un paper pubblicato su Nature nel 2017 (Esteva et al.) che dimostrava come una CNN addestrata su 130.000 immagini classificasse lesioni cutanee con accuratezza equivalente a quella di un dermatologo board-certified. Un paper su Nature Medicine del 2019 ha replicato e approfondito questi risultati, confrontando AI e dermatologi umani su scala più ampia.

In oftalmologia, il caso IDx-DR è storico: fu il primo dispositivo AI approvato dalla FDA per la diagnostica senza supervisione medica diretta. IDx-DR analizza fotografie del fondo oculare e rileva la retinopatia diabetica — la principale causa di cecità nei diabetici — senza che sia necessario un oftalmologo in loco. Il sistema può essere operato da personale non specializzato in ambulatori di medicina generale, portando lo screening dove prima era impossibile per mancanza di specialisti.

Il problema del bias e della generalizzazione

La promessa è reale. Ma i limiti sono altrettanto reali, e ignorarli è pericoloso.

Il problema fondamentale dell'AI medica è che la performance di un modello dipende dalla popolazione su cui è stato addestrato. Se il training set di un modello dermatologico è composto per l'85% da immagini di pazienti con fototipi chiari (come avviene nella maggior parte dei dataset americani ed europei), le sue performance su pelli scure saranno sistematicamente peggiori. Questo non è un problema teorico: è stato documentato in studi peer-reviewed su sistemi commerciali già in uso.

Lo stesso vale per la radiologia. Un modello addestrato su TAC acquisite con scanner di una specifica marca, in ospedali con un certo protocollo di acquisizione, in pazienti con una certa distribuzione demografica, può avere performance degradate quando viene applicato in un ospedale con strumentazione diversa o una popolazione diversa. La FDA ha iniziato a richiedere, nelle sue linee guida aggiornate, che i produttori documentino le caratteristiche della popolazione di training e le eventuali limitazioni note.

Babylon Health è il caso più clamoroso di promessa esagerata. La startup britannica prometteva un "AI doctor for everyone" — un sistema che potesse diagnosticare e consigliare qualsiasi paziente, incluse le popolazioni non servite da medici nei paesi in via di sviluppo. Il modello era addestrato principalmente su dati occidentali. Le performance su popolazioni diverse erano molto meno solide di quanto i comunicati stampa suggerissero. Babylon ha dichiarato bancarotta nel 2023, dopo aver bruciato centinaia di milioni di dollari e aver sollevato critiche serie dalla comunità medica.

LLM in clinica: Med-PaLM 2 e il problema della responsabilità

La frontiera più recente non è più solo la computer vision diagnostica, ma i Large Language Models applicati alla medicina clinica. Google ha sviluppato Med-PaLM 2, un LLM fine-tuned su letteratura medica, testi clinici e domande di esame medico. I risultati su benchmark come MedQA (domande dell'esame USMLE) sono stati da "expert level" — performance nell'intervallo di un medico umano.

Ma "expert level su benchmark" non equivale a "sicuro per uso clinico". La differenza è enorme. Un LLM medico può rispondere correttamente a domande multiple choice di patologia; può anche allucinare diagnosi rare, fraintendere il contesto clinico, non cogliere il sottotesto di una presentazione atipica. I benchmark testano conoscenza dichiarativa; la medicina clinica richiede giudizio contestuale.

Il problema più urgente che la FDA sta cercando di affrontare è quello della responsabilità. Se un sistema AI raccomanda un trattamento e il paziente viene danneggiato, chi è responsabile? Il produttore del software? Il medico che ha accettato la raccomandazione? L'ospedale che ha implementato il sistema? La risposta legale è ancora largamente irrisolta, e varia per giurisdizione.

FDA 2024: il nodo del pre-market vs post-market

L'AI medica pone una sfida regolatoria senza precedenti: i modelli di machine learning possono aggiornarsi dopo l'approvazione. Un dispositivo medico tradizionale — un bisturi, uno stent — non cambia dopo la produzione. Un modello AI che impara dai nuovi dati clinici potrebbe essere uno strumento diverso sei mesi dopo l'approvazione.

La FDA ha proposto nel 2024 un framework che distingue tra modifiche "locked" (il modello non si aggiorna dopo il deployment, richiede nuova approvazione per ogni cambiamento significativo) e sistemi "adaptive" (che imparano continuamente, richiedono un piano di sorveglianza post-market più robusto). La discussione è aperta: l'industria vuole flessibilità per migliorare i modelli; i clinici e i regolatori vogliono prevedibilità e tracciabilità.

Il compromesso che sta emergendo è quello della Predetermined Change Control Plan: il produttore deve specificare in anticipo quali tipi di aggiornamenti sono consentiti senza una nuova approvazione, e come verranno monitorati gli effetti di questi aggiornamenti sulla performance clinica. Non è una soluzione elegante, ma è un inizio pragmatico.

Cosa aspettarsi nei prossimi anni

La traiettoria è chiara: l'AI in medicina non è più una promessa futura ma una realtà in rapida espansione. Le domande rilevanti non sono più "funziona?" ma "funziona su quale popolazione?", "chi è responsabile quando sbaglia?", "come si integra nei flussi clinici reali?", "chi la paga?".

Il sistema sanitario che saprà rispondere a queste domande in modo rigoroso — non con entusiasmo acritico né con rifiuto difensivo — sarà quello che sfrutterà davvero il potenziale della medicina aumentata. Il rischio maggiore non è l'AI che sostituisce i medici; è l'AI implementata male che introduce nuove forme di errore sistematico che nessun individuo nota, perché "il computer ha detto così."

Link alla fonte originale

FDA — AI/ML-Enabled Medical Devices →

Pagina ufficiale FDA con database aggiornato dei dispositivi AI/ML approvati. EN. Accesso libero.