Peut-on faire confiance à l’IA ? La question se pose partout où l’IA est utilisée ou discutée – ce qui, de nos jours, est partout.
C’est une question que même certains systèmes d’IA se posent.
De nombreux systèmes d’apprentissage automatique créent ce que les experts appellent un « score de confiance », une valeur qui reflète le degré de confiance du système dans ses décisions. Un score faible indique à l’utilisateur humain qu’il existe une certaine incertitude quant à la recommandation ; un score élevé indique à l’utilisateur humain que le système, au moins, est tout à fait sûr de ses décisions. Les humains avisés savent qu’il faut vérifier le score de confiance lorsqu’ils décident de faire ou non confiance à la recommandation d’un système d’apprentissage automatique.
Des scientifiques du laboratoire national du nord-ouest du Pacifique du ministère de l’Énergie ont proposé une nouvelle façon d’évaluer les recommandations d’un système d’IA. Ils font participer des experts humains à la boucle pour voir les performances du ML sur un ensemble de données. L’expert apprend quels types de données le système d’apprentissage automatique classe généralement correctement et quels types de données entraînent de la confusion et des erreurs système. Forts de ces connaissances, les experts proposent ensuite leur propre score de confiance sur les futures recommandations du système.
Le résultat du regard humain par-dessus l’épaule du système d’IA ? Les humains ont prédit avec plus de précision les performances du système d’IA.
Un effort humain minimal – quelques heures seulement – pour évaluer certaines des décisions prises par le programme d’IA a permis aux chercheurs d’améliorer considérablement la capacité du programme d’IA à évaluer ses décisions. Dans certaines analyses de l’équipe, la précision du score de confiance a doublé lorsqu’un humain a fourni le score.
L’équipe PNNL a présenté ses résultats lors d’une récente réunion de la Human Factors and Ergonomie Society à Washington, DC, dans le cadre d’une session sur l’association humain-robot IA.
« Si vous n’avez pas développé l’algorithme d’apprentissage automatique en premier lieu, cela peut ressembler à une boîte noire », a déclaré Corey Fallon, l’auteur principal de l’étude et expert en interaction homme-machine. « Dans certains cas, les décisions semblent bonnes. Dans d’autres cas, vous pourriez recevoir une recommandation qui vous casse la tête. Vous ne comprendrez peut-être pas pourquoi il prend ces décisions. »
La grille et l’IA
C’est un dilemme auquel sont confrontés les ingénieurs électriciens travaillant avec le réseau électrique. Leurs décisions, basées sur des quantités de données qui changent à chaque instant, permettent à la nation de continuer à fonctionner. Mais les ingénieurs électriciens peuvent être réticents à confier le pouvoir de décision aux systèmes d’apprentissage automatique.
« Il existe des centaines d’articles de recherche sur l’utilisation de l’apprentissage automatique dans les systèmes électriques, mais presque aucun d’entre eux n’est appliqué dans le monde réel. De nombreux opérateurs ne font tout simplement pas confiance au ML. Ils ont une expérience dans le domaine, ce que le ML ne peut pas faire. apprenez », a déclaré le co-auteur Tianzhixi « Tim » Yin.
Les chercheurs du PNNL, qui dispose d’une équipe de classe mondiale modernisant le réseau, ont examiné de plus près un algorithme d’apprentissage automatique appliqué aux systèmes électriques. Ils ont entraîné l’algorithme SVM (support-vector machine) sur des données réelles provenant de l’interconnexion orientale du réseau aux États-Unis. Le programme a examiné 124 événements, décidant si un générateur fonctionnait mal ou si les données montraient d’autres types d’événements moins remarquables. .
L’algorithme était fiable à 85 % dans ses décisions. Beaucoup de ses erreurs se sont produites en cas de variations de puissance ou de changements de fréquence complexes. Les scores de confiance créés avec un humain impliqué dans la boucle représentaient une nette amélioration par rapport à l’évaluation par le système de ses propres décisions. La contribution de l’expert humain a prédit les décisions de l’algorithme avec une bien plus grande précision.
Un apprentissage automatique plus humain et meilleur
Fallon et Yin appellent le nouveau score un score de « confiance dérivée d’experts », ou score EDC.
Ils ont constaté qu’en moyenne, lorsque les humains intervenaient sur les données, leurs scores EDC prédisaient un comportement du modèle que les scores de confiance de l’algorithme ne pouvaient pas prédire.
« L’expert humain comble les lacunes des connaissances du ML », a déclaré Yin. « L’humain fournit des informations que le ML ne possédait pas, et nous montrons que ces informations sont significatives. En fin de compte, nous avons montré que si vous ajoutez l’expertise humaine aux résultats du ML, vous obtenez une bien meilleure confiance. »
Les travaux de Fallon et Yin ont été financés par le PNNL dans le cadre d’une initiative connue sous le nom de MARS – Mathematics for Artificial Reasoning in Science. Cet effort fait partie d’un effort plus large en matière d’intelligence artificielle au PNNL. L’initiative a réuni Fallon, un expert en équipe homme-machine et en recherche sur les facteurs humains, et Yin, un data scientist et un expert en apprentissage automatique.
« C’est le type de recherche nécessaire pour préparer et équiper une main-d’œuvre prête à l’IA », a déclaré Fallon. « Si les gens ne font pas confiance à l’outil, vous perdez votre temps et votre argent. Vous devez savoir ce qui se passera lorsque vous sortirez un modèle d’apprentissage automatique du laboratoire et le mettrez en œuvre dans le monde réel.
« Je suis un grand fan de l’expertise humaine et de l’équipe homme-machine. Nos scores EDC permettent à l’humain de mieux évaluer la situation et de prendre la décision finale. »