ChatGPT et la médecine

Avertissement : cette page n’encourage pas à s’auto-diagnostiquer

ChatGPT ne remplace pas (encore ?) les professionnels de santé

ChatGPT pourrait produire de fausses données médicales

C’est ce qu’a remarqué une équipe de chercheurs après avoir demandé à l’outil conversationnel de rédiger le résumé d’un article scientifique.

La situation

Alors que la menace plane d’ores et déjà sur le travail des artistes, des traducteurs, ou encore des journalistes, l’intelligence artificielle (IA) pourrait-elle également supplanter celui des scientifiques? C’est en tout cas ce que redoutent certains après la publication d’une étude à ce sujet dans la revue Patterns, le 10 mars dernier. Ces nouvelles recherches révèlent que ChatGPT, le prototype d’agent conversationnel qui n’a de cesse de faire parler de lui ces derniers temps, peut en effet «fabriquer des données médicales convaincantes», rapporte Interesting Engineering.

Les chercheurs sont parvenus à cette conclusion après avoir demandé à ChatGPT de générer le résumé d’un article scientifique portant sur les effets de deux médicaments sur la polyarthrite rhumatoïde. Pour ce faire, ils ont invité l’outil conversationnel à utiliser des données médicales de 2012 à 2020. Tâche accomplie pour ChatGPT qui a produit un article scientifique réaliste et qui est allé jusqu’à affirmer qu’un médicament était plus efficace qu’un autre.

Si certaines des données exploitées par l’outil étaient bel et bien réelles, les scientifiques à l’origine de l’étude doutent cependant que ce soit le cas de chacune d’entre elles puisque «ChatGPT ne prend en compte les données que jusqu’à 2019», souligne Interesting Engineering. Surtout, il leur paraît dangereux qu’une IA puisse tirer des conclusions quant à la plus grande efficacité d’un médicament par rapport à un autre.

Des données difficilement détectable

Les auteurs de cette étude s’inquiètent ainsi qu’il soit dorénavant bien plus facile de publier des recherches frauduleuses «susceptibles de jeter le doute sur tous les travaux légitimes» et que certaines personnes mal intentionnées en profitent.

«En un après-midi, on peut se retrouver avec des dizaines de résumés d’articles scientifiques qui peuvent être soumis à diverses conférences pour publication», déplorent les chercheurs. «Lorsqu’un résumé est accepté pour publication, il est également possible d’utiliser cette même technologie d’intelligence artificielle pour rédiger son manuscrit.»

Mais pour les chercheurs, l’inquiétude principale est que ChatGPT puisse proposer d’utiliser des données qui n’existent pas afin de rédiger des travaux de recherche. Ces derniers pourraient ainsi «facilement échapper à la détection humaine et finalement, se retrouver dans une publication.»

ChatGPT peut-il rivaliser avec l’expertise du médecin pour établir un diagnostic ?

Le secteur médical et la recherche bénéficient grandement des avancées réalisées grâce aux intelligences artificielles mais est-ce à dire que les professionnels de santé sont vraiment sur un siège éjectable ? Avec Canal Détox de l’INSEM, penchons-nous sur le sujet qui s’intéresse spécifiquement aux implications de l’IA en pratique clinique et dans la recherche biomédicale.

La situation

Des performances qui soulèvent déjà leur lot de questionnements et de préoccupations : des universités craignant la fraude aux examens l’ont interdit, des chercheurs l’ont testé pour écrire un article scientifique… En creux, la médiatisation de ChatGPT pose la question plus vaste de la place de l’IA dans nos vies, et de la valeur ajoutée qu’elle pourrait ou non avoir dans certains domaines, notamment dans le champ scientifique. La question éthique a, de ce fait, de plus en plus d’importance : comment s’assurer de la véracité des informations relayées par un tel outil ? Dans le domaine clinique, un diagnostic posé par une IA est-il réellement fiable ? Certaines professions sont-elles amenées à disparaître, remplacées par des systèmes d’IA plus performants ?

Des promesses déçues en médecine

Dans les sciences biomédicales, l’IA est depuis plusieurs années considérée comme une méthode prometteuse, pouvant potentiellement bénéficier au patient. Parmi les innovations attendues : l’optimisation de la prise en charge du patient, l’amélioration du diagnostic des maladies, la prédiction de l’état de santé futur du patient et la personnalisation de son suivi. En radiologie et en oncologie par exemple, des financements massifs ont déjà été alloués à des équipes de recherche travaillant sur le sujet.

Cependant, la réalité du terrain est plus nuancée. De nombreux systèmes d’IA développés ces dernières années se sont en fait avérés plutôt décevants. Parmi les exemples les plus connus, on peut citer celui de l’IA IBM Watson Health. Ce système a été conçu pour guider la pratique des médecins, afin de les aider à améliorer les soins et de proposer les traitements les plus adaptés aux patients, notamment en oncologie. Toutefois, pour développer et entraîner l’IA, des données jugées de mauvaises qualités ainsi que des populations non représentatives auraient été sélectionnées, et une méthodologie inadéquate aurait été utilisée. Les modèles finaux présentaient des performances faibles susceptibles d’entraîner des erreurs médicales si les professionnels de santé avaient suivi les recommandations de l’IA à la lettre.

D’autres études ont montré que l’intelligence artificielle pouvait être utilisée en clinique pour prédire le risque de maladie cardiovasculaire ou encore le devenir de patients atteints de certains cancers. Cependant, la fiabilité des résultats variait grandement en fonction de la qualité des données utilisées pour alimenter les systèmes d’IA.

“La fiabilité des résultats variait grandement en fonction de la qualité des données utilisées pour alimenter les systèmes d’IA”

Ces cas illustrent un paradoxe que de nombreux chercheurs tentent de mettre en avant depuis plusieurs années. En théorie, l’IA est censée être plus efficace pour développer un modèle diagnostique ou pronostique, par rapport aux méthodes traditionnellement utilisées en médecine, car elle est capable d’intégrer une plus grande quantité de données et de paramètres. Néanmoins, dans les faits, elle ne fait pas toujours mieux.

Par conséquent, on constate aujourd’hui un contraste inquiétant entre les promesses de l’IA, et l’absence d’applications et de démonstrations rigoureuses de sa pertinence clinique. Des travaux ont récemment montré que la majorité des études utilisant l’IA ont de nombreuses limites. Les systèmes d’IA sur lesquelles elles s’appuient sont en effet généralement entraînés à partir de données issues de populations de patients de faible qualité, avec des protocoles inadaptés et des échantillons trop petits et/ou peu représentatifs. Ces systèmes sont par ailleurs rarement validés de façon indépendante, ce qui limite la possibilité de les implémenter et de généraliser leur usage au niveau mondial.

En outre, une prise en charge adaptée et réellement personnalisée repose aussi en partie sur la relation qu’entretient le médecin avec son patient, sur sa capacité à intégrer des éléments de contexte socio-culturels, à décrypter les états émotionnels de la personne en face de lui… Autant d’éléments que l’IA est encore bien loin de pouvoir intégrer.

Ces faiblesses méthodologiques posent des questions quant à la fiabilité de l’IA et à son implémentation concrète dans les systèmes de santé – et sur les risques liés à son utilisation dans la prise en charge des patients.

Greffe de rein : comparaison IA versus méthodes traditionnelles

En cas d’insuffisance rénale, la greffe de rein est le meilleur traitement possible en matière d’espérance de vie, de qualité de vie et de coût sociétal. L’échec de greffe après transplantation est donc particulièrement redouté. Néanmoins, prédire en avance le risque d’échec de la greffe, afin d’adapter le suivi et le traitement du patient, est une tâche difficile, car une multitude de paramètres entrent en jeu.

Si l’IA a récemment été mise en avant comme un outil pronostic permettant de prédire le risque d’échec d’une greffe rénale, peu d’études ont été dédiées, avant aujourd’hui, à la comparaison des performances de l’IA à celles de méthodes statistiques traditionnelles.

Dans une étude publiée en janvier 2023, des scientifiques de l’Inserm, de l’AP-HP et d’Université Paris Cité ont cherché à confronter l’IA aux modèles statistiques traditionnels de prédiction. En utilisant des données structurées et validées, émanant de cohortes internationales de patients, les chercheurs ont développé des modèles de prédiction fondés sur l’IA et des modèles s’appuyant sur des méthodes statistiques traditionnelles. Ils ont ensuite comparé leurs performances respectives dans la prédiction du risque d’échec de la greffe rénale.

Les résultats, publiés dans la revue Kidney International sont sans équivoque : quel que soit le type d’algorithme utilisé, l’IA obtient des performances de prédiction du risque d’échec de la greffe rénale comparables aux modèles statistiques traditionnels.

Rédaction d’articles scientifiques : Chatgpt doit revoir sa copie

Si l’on revient au cas de ChatGPT, il est clair que cette IA n’a été pensée ni pour accompagner la pratique des chercheurs ou des médecins ni pour proposer des diagnostics. Néanmoins, il est en théorie possible pour n’importe quel utilisateur de soumettre à l’IA les inquiétudes qu’il pourrait avoir concernant sa santé – avec le risque d’obtenir des conseils erronés qui mettraient sa santé en danger.

Par ailleurs, si on quitte la pratique clinique pour s’intéresser aux implications dans la recherche pharmacologique, il est intéressant de s’arrêter sur une étude menée par des chercheurs espagnols, qui a fait l’objet de vives discussions. Ces derniers ont fait rédiger à ChatGPT un article scientifique complet sur le rôle des IA dans la découverte des médicaments. Une prouesse qui devrait inquiéter la communauté scientifique ? Pas tant que cela si l’on en croit l’expérience des chercheurs : en effet, ceux-ci ont dû largement retravailler et corriger l’article, ChatGPT n’ayant pas été capable, entre autres, de donner des références scientifiques correctes.

Plus inquiétant en revanche, des chercheurs américains ont demandé à l’IA de rédiger de toutes pièces 50 résumés de recherche médicale à partir d’une sélection de résumés déjà publiés dans des revues scientifiques prestigieuses. Les chercheurs ont ensuite comparé les résumés produits par l’IA aux résumés originaux, en les soumettant à un détecteur de plagiat et à un détecteur de contenus d’IA. Ils ont aussi demandé à un groupe de chercheurs de repérer parmi les résumés ceux qui étaient authentiques et ceux qui avaient été générés de façon automatique.

Résultat : aucun plagiat n’a été détecté. De plus, si le détecteur d’IA n’a repéré que 66 % des résumés générés, les chercheurs n’ont pas fait beaucoup mieux en n’identifiant correctement que 68 % des résumés générés. Un constat qui soulève une interrogation pour le futur : si des résumés scientifiques peuvent facilement être générés par n’importe qui grâce à l’IA et si les experts ne parviennent pas toujours à les identifier, comment les chercheurs pourront-ils toujours s’assurer que les résultats scientifiques sur lesquels ils fondent leurs réflexions ne sont pas inventés ?

Plus largement, que ce soit pour développer un modèle de prédiction diagnostique ou pour rédiger un texte scientifique en s’appuyant sur ChatGPT, la question de la crédibilité, de la rigueur scientifique et de la véracité des informations relayées par l’IA est cruciale. Ce phénomène est en outre exacerbé par le manque de transparence quant au développement des modèles fondés sur l’IA qui ne connaissent du monde que l’information parfois biaisée et incomplète qu’on leur donne.

L’urgence de réfléchir à un cadre éthique et réglementaire

Ni les médecins ni les chercheurs ne seront remplacés par l’IA de sitôt. En effet, les limites méthodologiques de ces systèmes sont importantes, et leurs performances doivent encore être améliorées. À l’heure actuelle, rien ne vaut les interactions humaines pour proposer une prise en charge adaptée, fondée sur les particularités de chaque patient et l’expertise des médecins pour valider un diagnostic.

Il est toutefois nécessaire de réfléchir dès maintenant aux nombreuses problématiques méthodologiques et éthiques que l’IA soulève, et à la manière dont ces outils peuvent non pas remplacer les scientifiques et les médecins, mais au contraire représenter une valeur ajoutée quant à l’optimisation du suivi du patient et à l’amélioration des prises de décisions cliniques.

Texte rédigé avec le soutien de Alexandre Loupy, Marc Raynaud et Agathe Truchot au sein du Centre de recherche cardiovasculaire de Paris (Parcc) (unité 970 Inserm/Université de Paris ), équipe Paris Transplant Group.

Article source : ChatGPT peut-il rivaliser avec l’expertise du médecin pour établir un diagnostic ?
Publié sur Futura en collaboration avec l’INSERM le 3 avril 2023

Quelques articles complémentaires

ChatGPT 4 est-il prêt à remplacer les médecins ?
ChatGPT-4, la dernière mise à jour de l’intelligence artificielle développée par OpenAI, est-elle déjà capable de remplacer les médecins ? C’est l’épineuse question posée par le livre « The AI Revolution in Medicine ».
Publié sur 01Net par Florian Bayard, reprise d’un article publié sur Business Insider
ChatGPT trouve la mystérieuse maladie d’un enfant
Pendant trois ans, divers médecins se sont attardés sur ce cas. Malgré de multiples examens, ils n’ont jamais réussi à déterminer de quoi souffrait le petit Alex. Aujourd’hui, le diagnostic est enfin établi. Difficile à croire: Alex a été diagnostiqué par ChatGPT.
Publié sur Blick le 13 septembre 2023
Voici comment ChatGPT pourrait sauver des vies (aux urgences !)
Aux Pays-Bas, des médecins ont demandé à ChatGPT de diagnostiquer des patients admis aux urgences (à partir des notes et des analyses).
Les résultats de l’étude suggèrent que les hôpitaux pourraient gagner du temps en exploitant cette IA.
Mais les auteurs de l’étude précisent que ChatGPT n’est pas un dispositif médical.
Publié sur Presse Citron par Setra le 13 septembre 2023
Selon Sam Altman, l’IA donnera des conseils médicaux (aux pauvres)
Sam Altman, patron d’OpenAI, fait une série de prédictions concernant l’intelligence artificielle. Selon lui, celle-ci pourra donner des conseils médicaux aux personnes qui n’ont pas les moyens de consulter.
Publié sur Presse Citron par Setra le 23 février 2023
Il utilise ChatGPT pour compléter le diagnostic d’un véto et sauver sa chienne
Un internaute raconte de quelle façon il s’est servi de ChatGPT alors que sa chienne était malade. Un premier vétérinaire n’avait pas réussi à poser un bon diagnostic. En partageant l’analyse de sang dans l’IA, une hypothèse a été avancée, qui s’est avérée correcte, auprès d’un deuxième vétérinaire.
Publié sur Numerama par Julien Lausson le 27 mars 2023