Uno studio statunitense pubblicato su Nature Medicine riaccende il dibattito sull’affidabilità dei chatbot nella consulenza sanitaria e mette sotto osservazione ChatGPT Health, lo strumento di intelligenza artificiale presentato da OpenAI come supporto per «comprendere e gestire in modo più attivo la propria salute e il proprio benessere». Secondo l’azienda, sarebbero già 40 milioni le persone che nl mondo utilizzano il sistema per ottenere informazioni e consigli in ambito medico. Ma l’analisi condotta da ricercatori statunitensi suggerisce cautela, soprattutto nei casi clinici più delicati.
L’indagine è stata realizzata da un team della Icahn School of Medicine at Mount Sinai di New York e pubblicata online il 23 febbraio. I ricercatori hanno sottoposto il chatbot a 60 scenari clinici strutturati, afferenti a 21 diverse specialità mediche, che spaziavano da condizioni lievi gestibili a domicilio fino a vere e proprie emergenze. Per ciascun caso, tre medici hanno definito il livello di urgenza appropriato sulla base delle linee guida di 56 società scientifiche.
I risultati, secondo quanto riportato dalla rivista belga Le Pharmacien, mostrano criticità rilevanti. In oltre la metà dei casi che i clinici consideravano meritevoli di assistenza urgente, il sistema non ha attribuito la corretta priorità, configurando fenomeni di sotto-triage. Non sono mancati, peraltro, episodi di sovra-triage, con raccomandazioni di ricorso immediato al medico o al pronto soccorso anche in presenza di sintomi giudicati benigni. «ChatGPT Health ha funzionato bene per emergenze classiche come l’ictus o le reazioni allergiche gravi» ha spiegato Ashwin Ramaswamy, medico e co-autore della ricerca «ma il sistema ha mostrato difficoltà nelle situazioni più sfumate, dove il pericolo non è immediatamente evidente, proprio quelle in cui il giudizio clinico è spesso determinante».
Particolarmente delicato il capitolo relativo al rischio suicidario. Secondo OpenAI, il sistema sarebbe programmato per indirizzare gli utenti che esprimono ideazioni suicidarie alla linea statunitense 988 “Suicide and Crisis Lifeline”. Tuttavia, i ricercatori hanno riscontrato un’attivazione incoerente degli avvisi: talvolta presenti in scenari a basso rischio e assenti, in modo giudicato «particolarmente allarmante», quando gli utenti descrivevano piani concreti di autolesionismo. «Gli alert del sistema non erano allineati al rischio clinico», ha osservato Girish N. Nadkarni, un altro dei ricercatori che hanno firmato lo studio «in pratica, la descrizione dettagliata di un’intenzione di autolesionismo rappresenta un indicatore di rischio più elevato e non ridotto».
Gli autori raccomandano che, in presenza di peggioramento dei sintomi o di segnali d’allarme quali dolore toracico, dispnea, reazioni allergiche severe o alterazioni dello stato mentale, i pazienti si rivolgano immediatamente a un medico, evitando di affidarsi esclusivamente ai chatbot. «Quando milioni di persone utilizzano un sistema di IA per decidere se necessitano di cure urgenti, la posta in gioco è estremamente alta», ha dichiarato Isaac S. Kohane, della Harvard Medical School. «La valutazione indipendente dovrebbe essere la regola, non un’opzione».
Lo studio sottolinea inoltre che i modelli di IA sono oggetto di aggiornamenti continui, con possibili variazioni delle performance nel tempo, elemento che rafforza la necessità di verifiche periodiche e indipendenti. ChatGPT Health non è al momento disponibile in Europa: secondo OpenAI, peserebbero le incertezze relative alla conformità con il Regolamento generale sulla protezione dei dati, il regolamento sui dispositivi medici e l’AI Act. Un quadro che, anche alla luce delle evidenze emerse, alimenta interrogativi sulla collocazione dei chatbot sanitari all’interno dei sistemi di cura e sul perimetro di responsabilità professionale, tema di diretto interesse anche per i farmacisti territoriali.