Le chatbot ELIZA des années 1960 a battu le GPT-3.5 d’OpenAI dans une récente étude test de Turing


Dans un document de recherche en prépublication intitulé « Does GPT-4 Pass the Turing Test? », deux chercheurs de l’UC San Diego ont comparé le modèle de langage d’IA GPT-4 d’OpenAI à des participants humains, GPT-3.5 et ELIZA pour voir lequel pourrait inciter les participants à réfléchir. c’était humain avec le plus grand succès. Mais en cours de route, l’étude, qui n’a pas été évaluée par des pairs, a révélé que les participants humains identifiaient correctement d’autres humains dans seulement 63 % des interactions – et qu’un programme informatique des années 1960 surpassait le modèle d’IA qui alimente la version gratuite de ChatGPT.

Même avec les limitations et les mises en garde, que nous aborderons ci-dessous, l’article présente une comparaison stimulante entre les approches de modèles d’IA et soulève d’autres questions sur l’utilisation du test de Turing pour évaluer les performances des modèles d’IA.

Le mathématicien et informaticien britannique Alan Turing a conçu pour la première fois le test de Turing sous le nom de « jeu d’imitation » en 1950. Depuis lors, il est devenu une référence célèbre mais controversée pour déterminer la capacité d’une machine à imiter la conversation humaine. Dans les versions modernes du test, un juge humain parle généralement soit à un autre humain, soit à un chatbot, sans savoir lequel est lequel. Si le juge ne peut pas distinguer de manière fiable le chatbot de l’humain dans un certain pourcentage du temps, on dit que le chatbot a réussi le test. Le seuil de réussite au test est subjectif, de sorte qu’il n’y a jamais eu de large consensus sur ce qui constituerait un taux de réussite.

Dans l’étude récente, répertoriée sur arXiv fin octobre, les chercheurs de l’UC San Diego Cameron Jones (doctorant en sciences cognitives) et Benjamin Bergen (professeur au département des sciences cognitives de l’université) ont créé un site Web appelé turingtest.live. , où ils ont hébergé une implémentation à deux joueurs du test de Turing sur Internet dans le but de voir dans quelle mesure GPT-4, lorsqu’il y était invité de différentes manières, pouvait convaincre les gens qu’il était humain.

Un graphique à barres des taux de réussite au test de Turing effectué par Jones et Bergen, avec des humains en haut et un modèle GPT-4 dans l'emplacement n°2.  ELIZA, basée sur des règles anciennes, a surpassé GPT-3.5.

Grâce au site, des interrogateurs humains ont interagi avec divers « témoins d’IA » représentant soit d’autres humains, soit des modèles d’IA, notamment les GPT-4, GPT-3.5 et ELIZA susmentionnés, un programme conversationnel basé sur des règles des années 1960. « Les deux participants aux confrontations humaines ont été assignés au hasard aux rôles d’interrogateur et de témoin », écrivent les chercheurs. « Les témoins devaient convaincre l’interrogateur qu’ils étaient humains. Les joueurs associés à des modèles d’IA étaient toujours des interrogateurs. »

L’expérience a impliqué 652 participants qui ont complété un total de 1 810 sessions, dont 1 405 jeux ont été analysés après exclusion de certains scénarios tels que les jeux répétés d’IA (ce qui laisse espérer des interactions de modèles d’IA lorsque d’autres humains n’étaient pas en ligne) ou la connaissance personnelle entre les participants et témoins, qui étaient parfois assis dans la même pièce.

Étonnamment, ELIZA, développé au milieu des années 1960 par l’informaticien Joseph Weizenbaum du MIT, a obtenu des résultats relativement bons au cours de l’étude, atteignant un taux de réussite de 27 pour cent. GPT-3.5, selon l’invite, a obtenu un taux de réussite de 14 %, inférieur à ELIZA. GPT-4 a atteint un taux de réussite de 41 %, juste derrière les humains.

GPT-3.5, le modèle de base derrière la version gratuite de ChatGPT, a été conditionné par OpenAI spécifiquement pour ne pas se présenter comme un humain, ce qui peut expliquer en partie ses mauvaises performances. Dans un article sur X, Arvind Narayanan, professeur d’informatique à Princeton, a écrit : « Contexte important concernant l’article « ChatGPT ne réussit pas le test de Turing ». Comme toujours, le comportement des tests ne nous renseigne pas sur la capacité. Dans une réponse, il a poursuivi : « ChatGPT est affiné pour avoir un ton formel, ne pas exprimer d’opinions, etc., ce qui le rend moins humain. Les auteurs ont essayé de changer cela avec l’invite, mais il a des limites. La meilleure façon de faire semblant d’être un humain qui discute, c’est affiner les journaux de discussion humains. « 

En outre, les auteurs spéculent sur les raisons du succès relatif d’ELIZA dans l’étude :

« Premièrement, les réponses d’ELIZA ont tendance à être conservatrices. Bien que cela donne généralement l’impression d’un interlocuteur peu coopératif, cela empêche le système de fournir des indices explicites tels que des informations incorrectes ou des connaissances obscures. Deuxièmement, ELIZA ne ​​présente pas le genre d’indices que les interrogateurs sont venus à s’associer avec les assistants LLM, par exemple en étant serviables, amicaux et verbeux. Enfin, certains interrogateurs ont déclaré penser qu’ELIZA était « dommage » pour être un modèle d’IA actuel, et qu’il était donc plus probable qu’elle soit un humain intentionnellement peu coopératif. « .

Au cours des séances, les stratégies les plus couramment utilisées par les interrogateurs comprenaient de petites discussions et des questions sur les connaissances et l’actualité. Les stratégies les plus efficaces impliquaient de parler dans une langue autre que l’anglais, de s’enquérir de l’heure ou de l’actualité et d’accuser directement le témoin d’être un modèle d’IA.

Les participants ont formulé leur jugement en fonction des réponses qu’ils ont reçues. Fait intéressant, l’étude a révélé que les participants fondaient leurs décisions principalement sur le style linguistique et les traits socio-émotionnels, plutôt que sur la seule perception de l’intelligence. Les participants ont noté quand les réponses étaient trop formelles ou informelles, ou quand les réponses manquaient d’individualité ou semblaient génériques. L’étude a également montré que l’éducation des participants et leur familiarité avec les grands modèles de langage (LLM) ne permettaient pas de prédire de manière significative leur succès dans la détection de l’IA.

Instructions pour le jeu d'évaluation de l'IA du test Turing de Jones et Bergen, 2023.

Les auteurs de l’étude reconnaissent les limites de l’étude, notamment le biais potentiel de l’échantillon dû au recrutement sur les réseaux sociaux et le manque d’incitations pour les participants, ce qui pourrait avoir conduit certaines personnes à ne pas remplir le rôle souhaité. Ils affirment également que leurs résultats (en particulier les performances d’ELIZA) peuvent étayer les critiques courantes à l’égard du test de Turing, le qualifiant de moyen inexact de mesurer l’intelligence artificielle. « Néanmoins », écrivent-ils, « nous soutenons que le test a une pertinence continue en tant que cadre pour mesurer les interactions sociales fluides et la tromperie, et pour comprendre les stratégies humaines pour s’adapter à ces appareils. »

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*