Les implications de l’utilisation d’outils d’intelligence artificielle générative (IA) comme le très populaire ChatGPT pour la recherche ont été un sujet de discussion brûlant lors de la récente réunion annuelle de l’Association américaine pour l’avancement des sciences (AAAS) à Washington DC. Le chatbot, lancé par OpenAI il y a moins de cinq mois, a déjà été répertorié comme co-auteur de plusieurs articles de recherche.
En janvier, le Science La famille de revues publiées par l’AAAS a annoncé une interdiction complète de ces algorithmes de génération de texte, le rédacteur en chef Holden Thorp exprimant une inquiétude significative quant à l’effet potentiel que ces technologies pourraient avoir sur la recherche. La crainte est que de faux articles de recherche rédigés en partie ou entièrement par des programmes comme ChatGPT se retrouvent dans la littérature scientifique.
Plus tôt cette année, un Une équipe de l’Université de Chicago et de l’Université Northwestern dans l’Illinois a formé ChatGPT pour générer de faux résumés de recherche basés sur des articles publiés dans des revues à fort impact. Ils ont passé ces faux papiers et les originaux à travers un détecteur de plagiat et un détecteur de sortie d’IA, et ont demandé séparément à des réviseurs humains d’essayer de distinguer ceux qui étaient générés et ceux qui étaient réels.
Dans l’étude, les outils de détection de plagiat ne pouvaient pas faire la différence entre les résumés réels et frauduleux, mais des outils gratuits comme GPT-2 Output Detector ont pu déterminer avec succès si le texte a été écrit par un humain ou un bot. Cependant, les examinateurs humains n’ont pu reconnaître les articles générés par ChatGPT que 68 % du temps, et ils ont identifié à tort 14 % des vrais résumés comme des contrefaçons.
De telles découvertes ont incité les éditeurs scientifiques à agir. Springer Nature a également remanié ses règles pour spécifier que les technologies comme ChatGPT ne peuvent pas être créditées en tant qu’auteur, mais elles peuvent être utilisées dans le processus de préparation tant que tous les détails sont divulgués.
Le géant néerlandais de l’édition universitaire Elsevier a publié des directives selon lesquelles les outils d’IA pourraient être utilisés pour améliorer la « lisibilité » et le langage des articles de recherche qu’il diffuse, à condition que cela soit divulgué. Mais Elsevier, qui publie plus de 2800 revues, interdit l’utilisation de ces technologies pour des tâches clés comme l’interprétation de données ou l’élaboration de conclusions scientifiques.
« Au milieu d’une frénésie »
Lors de la conférence de presse de l’AAAS sur ces technologies, Thorp a déclaré que ChatGPT et des chatbots AI similaires ont beaucoup de potentiel, mais il a souligné que le paysage est dynamique. « Nous sommes au milieu d’une frénésie en ce moment, et je ne pense pas que le milieu d’une frénésie soit un bon moment pour prendre des décisions », a déclaré Thorp. « Nous avons besoin de conversations entre les parties prenantes sur ce que nous nous efforcerons d’obtenir avec des outils comme celui-ci. »
Il a décrit Sciencec’est politique sur l’utilisation de ChatGPT et de ses frères et sœurs comme « l’une des approches les plus conservatrices » adoptée par les éditeurs scientifiques. « Nous comprenons que finalement, une fois que tout cela s’estompera et que nous aurons une discussion approfondie à ce sujet, il y aura probablement des façons de l’utiliser qui seront acceptées par la communauté scientifique », a ajouté Thorp.
Il a fait une analogie entre ces nouvelles technologies d’IA génératives et Adobe Photoshop, lorsqu’il est apparu pour la première fois il y a des décennies. « Les gens ont fait des choses pour améliorer l’apparence de leurs images, principalement des gels de polyacrylamide, et nous n’avions pas de garde-fous à l’époque », a rappelé Thorp, notant que la communauté scientifique s’est demandé si cela était inapproprié de la fin des années 1990 à 2010 environ. Nous ne voulons pas répéter cela, car cela occupe une énorme partie de la bande passante scientifique… nous ne voulons pas nous disputer sur d’anciens travaux.
Thorp a reconnu, cependant, que son organisation reçoit beaucoup de commentaires selon lesquels elle est allée trop loin. « Mais il est beaucoup plus facile d’assouplir vos critères que de les resserrer », a-t-il déclaré.
Gordon Crovitz, co-directeur général de Newsguard – un outil de journalisme et de technologie qui évalue la crédibilité des informations et suit la désinformation en ligne – est allé plus loin lors de l’événement AAAS. Il a déclaré qu’il considérait ChatGPT sous sa forme actuelle comme « le plus grand diffuseur potentiel de désinformation de l’histoire du monde ».
Le chatbot « a accès à tous les exemples de désinformation dans le monde, et il est capable de le diffuser avec éloquence et dans un anglais parfait et hautement crédible, sous toutes sortes de formes », a-t-il averti, ajoutant que les versions ultérieures de l’outil comme Bing de Microsoft Le chat a été formé pour fournir au lecteur un récit plus équilibré et citer ses sources.
Crovitz a raconté comment il a utilisé ChatGPT pour rédiger un e-mail à Sam Altman, le directeur général d’OpenAI. L’invite qu’il a envoyée au chatbot était d’envoyer à Altman un e-mail expliquant pourquoi l’outil devrait être formé pour comprendre la fiabilité des sources d’information et identifier les faux récits.
« Cela a produit le plus merveilleux des e-mails, et j’ai révélé que ChatGPT était le co-auteur, et je lui ai écrit : « Cher Sam, votre service est extrêmement persuasif pour moi et j’espère qu’il le sera pour vous », et j’ai joint ce que la machine avait créé pour moi », se souvient Crovitz. Il a dit qu’il attendait toujours la réponse d’Altman.
L’examen par les pairs pourrait-il être renversé?
Non seulement la communauté des chercheurs s’inquiète du fait que ChatGPT a été accepté comme auteur de plusieurs articles de recherche, mais il y a aussi des questions quant à savoir si cette technologie pourrait renverser le processus d’examen par les pairs.
Andrew White, professeur de génie chimique et de chimie à l’Université de Rochester à New York, s’est récemment rendu sur Twitter pour demander conseil après avoir reçu ce qu’il a décrit comme un examen par les pairs en cinq phrases et très peu spécifique de l’un de ses documents de recherche. Le détecteur ChatGPT que White a utilisé a signalé que la critique avait été « peut-être rédigée par l’IA », et il voulait savoir quoi faire. D’autres ont dit que quelque chose de similaire leur était arrivé.
« Je suis allé sur Twitter parce qu’il n’y avait pas de pistolet fumant et que la critique était sans réponse », a déclaré White Monde de la Chimie. « C’est nouveau – si vous dites qu’un examen par les pairs est plagié, il n’y a aucun mécanisme pour y faire face », poursuit-il. « Je voulais pécher par excès de prudence, alors j’ai parlé à l’éditeur et j’ai dit que la critique était inhabituelle et non spécifique et, quel que soit l’auteur, elle n’est pas adressable. »
L’examen par les pairs ne paie pas ou n’apporte pas beaucoup de reconnaissance externe, note Whites et souligne qu’il en va de même pour les rapports annuels que les chercheurs américains doivent rédiger pour les agences qui financent leur travail. « Ces rapports disparaissent quelque part, et personne ne les lit jamais, et je suis sûr que les gens les écrivent avec ChatGPT », déclare White.
Les revues devront évaluer les articles de recherche et les commentaires des pairs examinateurs encore plus attentivement pour être sûrs de saisir tout ce qui pourrait avoir été écrit par l’IA, suggère-t-il. « Peut-être que cela ralentira la publication, et c’est peut-être ce dont nous avons besoin. »