ChatGPT peut-il être un coauteur d’articles scientifiques ?
- Daniela Ovadia
- Actualités Médicales
Après les premiers cas de « coauteur artificiel », les éditeurs courent se mettre à l’abri et les éthiciens réfléchissent à la nature et à la fonction des publications scientifiques.
L'information selon laquelle certains scientifiques ont cité OpenAI (le consortium qui a développé certains systèmes d’intelligence artificielle, dont ChatGPT) comme auteurs d’articles scientifiques a suscité des réactions immédiates de la part de la communauté des chercheurs et des éditeurs de revues à comité de lecture1. ChatGPT n’est cependant pas la première intelligence artificielle (IA) à devenir coauteur d’un article scientifique. L’année dernière, un article paru sur un site de prépublications avait été rédigé par le robot GPT-3, précurseur du système qui intrigue et inquiète de nombreux créateurs de contenu, des journalistes aux scientifiques, depuis quelques semaines2.
ChatGPT n’est même pas l’auteur le plus surprenant, puisque le rapport détaillé de la production scientifique compte parmi ses coauteurs d’articles scientifiques plusieurs animaux et personnages inventés aux noms comiques ou ironiques, dont le cas emblématique du physicien américain William Hoover, qui a inclus parmi les coauteurs de certains de ses articles son collègue Stronzo Bestiale (Parfait connard), une expression entendue lors de l’un de ses voyages en Italie3.
Responsabilités des auteurs
Alors pourquoi tant d’agitation autour de ce qui semble être un développement technologique largement anticipé ? La réponse se trouve dans la définition même d’« auteur d’un article scientifique ». Cette définition est le résultat d’années d’évaluation dans le domaine de l’éthique de la recherche et des nombreux cas de fraude scientifique, certains (les plus flagrants) basés sur des données totalement inventées4.
La fraude scientifique n’est souvent commise que par quelques participants à une recherche, mais la présence de plusieurs auteurs rend difficile l’attribution d’une responsabilité précise. C’est pourquoi la règle acceptée aujourd’hui est que tous les auteurs d’un article scientifique sont responsables de chaque partie de celui-ci et sont tenus de vérifier le contenu élaborés par les autres auteurs. Il existe quelques exceptions à cette règle, comme les grands consortiums signant des essais cliniques avec des milliers de noms, qui sont atténuées par l’exigence de plus en plus courante de préciser au bas de l’article la contribution factuelle de chaque auteur, quelle que soit sa position dans la liste des coauteurs.
Les exigences relatives à la qualité d’auteur
Dans la version la plus récente de ses directives, qui ont été mises à jour une vingtaine de fois depuis 1979, le Comité international des éditeurs de revues médicales (International Committee of Medical Journal Editors, ICMJE) recommande que l’évaluation de la qualité d’auteur repose sur quatre critères.
Pour être répertorié comme auteur, il faut avoir :
- contribué de manière substantielle à la conception ou à la méthodologie des travaux, ou à l’acquisition, l’analyse ou l’interprétation des données ;
- rédigé l’article ou l’avoir révisé de manière significative, en y ayant ajouté un élément intellectuel important ;
- donné l’approbation finale de la version à publier ;
- accepté d’être tenu responsable de tous les aspects des travaux, en veillant à ce que les questions concernant l’exactitude ou l’intégrité de toute partie des travaux soient correctement examinées et résolues.
Bien que ces règles soient principalement appliquées dans le domaine biomédical, elles ont également été étendues à d’autres disciplines par le biais d’institutions telles que le Comité d’éthique des publications (Committee on Publication Ethics)5.
Un outil qui mérite d’être mentionné
Pour en revenir à ChatGPT et aux autres systèmes capables de générer du texte sur la base des lois complexes qui régissent le langage naturel, leur utilisation semble aller à l’encontre de la plupart des règles qui définissent le droit de se qualifier comme un auteur, principalement celle d’assumer la responsabilité des résultats d’une étude. C’est la direction que prennent diverses maisons d’édition : après la prise de position de la revue Nature de ne pas accepter l’IA comme auteur, d’autres revues, comme JAMA, ont suivi la même voie6.
Cela ne veut pas dire que cet instrument ne peut pas être utilisé. Il est autorisé mais doit être mentionné comme tel dans la section relative à la méthodologie de l’étude, comme pour tout instrument employé.
Cela ne règle pas tout pour autant, notamment dans les domaines où l’exactitude des informations est cruciale.
« La communauté de l’édition scientifique a rapidement fait part de ses inquiétudes quant à l’utilisation potentiellement abusive de ces modèles linguistiques dans les publications scientifiques », écrivent les auteurs de l’éditorial de la revue JAMA6. « Des personnes ont procédé à des expérimentations en posant à ChatGPT une série de questions sur des sujets controversés ou importants (par exemple, si la vaccination des enfants provoque l’autisme), ainsi que des questions techniques et éthiques spécifiques liées à la publication. Leurs résultats ont montré que les réponses textuelles de ChatGPT aux questions, même si elles sont généralement bien écrites, sont conventionnelles (ce qui n’était pas facile à discerner), ne sont pas actualisées, sont fausses ou inventées, sans références précises ou complètes, et pire, comportent des données probantes qui n’existent pas et qui sont élaborées pour les besoins des affirmations ou des déclarations avancées. »
En outre, les textes générés qui s’appuient sur des informations déjà publiées pourraient relever de la définition du plagiat scientifique, même si des outils tels que ChatGPT sont capables de recréer les textes avec une telle variabilité qu’ils ne peuvent pas être détectés par les logiciels anti-plagiat normaux ; seulement par ceux que la société OpenAI met à disposition ces jours-ci.
D’un autre côté, « OpenAI reconnaît certaines des limites du modèle linguistique, notamment le fait de fournir des “réponses qui semblent plausibles mais qui sont incorrectes ou absurdes”, et le fait que la récente version fait partie d’un déploiement itératif ouvert destiné à l’utilisation humaine, à l’interaction et au retour d’information dans le but de l’améliorer »6.
En substance, selon les experts, le modèle n’est pas prêt à être utilisé comme une source d’informations fiable en l’absence d’une supervision et d’une révision humaines minutieuses, du moins dans le domaine de la médecine.
Questions éthiques plus larges
La communauté scientifique devra toutefois réfléchir à d’autres questions éthiques, car l’outil ne fera que s’améliorer avec le temps. Un tel outil pourrait par exemple combler le fossé linguistique entre les scientifiques dont la langue maternelle est l’anglais et tous les autres, facilitant ainsi la publication de recherches menées et rédigées dans d’autres langues.
En revanche, il existe un problème objectif de surproduction de contenu scientifique, car il est pratiquement impossible pour un expert de suivre les évolutions dans son domaine de spécialité. Il est difficile de concevoir pourquoi la communauté des scientifiques ferait la promotion d’un outil qui augmente la vitesse de production et la quantité des articles, alors qu’elle pourrait s’y intéresser si cet outil lui permettait d’évoluer vers une science de meilleure qualité et d’une plus grande significativité statistique.
Enfin, le perfectionnement de ces outils pourrait conduire à faire passer la capacité à rédiger un article scientifique d’une condition préalable à la conduite d’une activité scientifique à une compétence secondaire, en mettant davantage l’accent sur l’amélioration des compétences en matière de vérification des données et de la structure du texte, afin de préserver la responsabilité humaine de ces productions intellectuelles.
En attendant, ceux qui prévoient de rédiger un article avec l’aide de l’IA devraient suivre les recommandations que les éditeurs ont partagées ces derniers jours :
Les sections créées à l’aide de l’IA doivent être mises en évidence de manière appropriée et la méthodologie utilisée pour les générer doit être explicitée dans le document lui-même (en incluant également le nom et la version du logiciel utilisé, dans un souci de transparence).
- Il est fortement déconseillé de soumettre des articles entièrement produits par l’IA, en particulier s’il s’agit de revues systématiques de la littérature. Cela est en partie dû à l’immaturité des technologies de traitement du langage naturel et à leur tendance à perpétuer les biais statistiques et de sélection présents dans les instructions de leur créateur. La seule exception concerne les études qui visent précisément à évaluer la fiabilité de ces technologies (un objectif qui doit, bien entendu, être explicité dans le document lui-même).
- Il est déconseillé de générer des images et de les utiliser dans des articles scientifiques, car cela est contraire aux normes éthiques des publications scientifiques, à moins que ces images ne soient elles-mêmes le sujet de la recherche.
Cet article a été initialement publié en italien sur Univadis Italie.
Malheureusement, l’accès à l’intégralité de cet article est reservé uniquement aux professionnels de santé disposant d’un compte.
Vous avez atteint la limite d'articles par visiteur
Inscription gratuite Disponible uniquement pour les professionnels de santé