Quand les data scientists doivent-ils essayer une nouvelle technique ?


Si un scientifique voulait prévoir les courants océaniques pour comprendre comment la pollution se déplace après un déversement de pétrole, il pourrait utiliser une approche commune qui examine les courants se déplaçant entre 10 et 200 kilomètres. Ou, elle pourrait choisir un modèle plus récent qui comprend également des courants plus courts. Cela pourrait être plus précis, mais cela pourrait également nécessiter l’apprentissage de nouveaux logiciels ou l’exécution de nouvelles expériences informatiques. Comment savoir si cela vaudra le temps, le coût et l’effort d’utiliser la nouvelle méthode ?

Une nouvelle approche développée par des chercheurs du MIT pourrait aider les scientifiques des données à répondre à cette question, qu’ils examinent des statistiques sur les courants océaniques, les crimes violents, la capacité de lecture des enfants ou un certain nombre d’autres types d’ensembles de données.

L’équipe a créé une nouvelle mesure, connue sous le nom de « valeur c », qui aide les utilisateurs à choisir entre des techniques en fonction de la probabilité qu’une nouvelle méthode soit plus précise pour un ensemble de données spécifique. Cette mesure répond à la question « est-il probable que la nouvelle méthode soit plus précise pour ces données que l’approche commune ?

Traditionnellement, les statisticiens comparent les méthodes en faisant la moyenne de la précision d’une méthode sur tous les ensembles de données possibles. Mais ce n’est pas parce qu’une nouvelle méthode est meilleure pour tous les ensembles de données en moyenne qu’elle fournira une meilleure estimation en utilisant un ensemble de données particulier. Les moyennes ne sont pas spécifiques à l’application.

Ainsi, des chercheurs du MIT et d’ailleurs ont créé la valeur c, qui est un outil spécifique à un ensemble de données. Une valeur c élevée signifie qu’il est peu probable qu’une nouvelle méthode soit moins précise que la méthode originale sur un problème de données spécifique.

Dans leur document de preuve de concept, les chercheurs décrivent et évaluent la valeur c à l’aide de problèmes d’analyse de données du monde réel : modélisation des courants océaniques, estimation des crimes violents dans les quartiers et approximation de la capacité de lecture des élèves dans les écoles. Ils montrent comment la valeur c pourrait aider les statisticiens et les analystes de données à obtenir des résultats plus précis en indiquant quand utiliser des méthodes d’estimation alternatives qu’ils auraient autrement ignorées.

« Ce que nous essayons de faire avec ce travail particulier est de proposer quelque chose qui est spécifique aux données. La notion classique de risque est vraiment naturelle pour quelqu’un qui développe une nouvelle méthode. Cette personne veut que sa méthode fonctionne bien pour tous ses utilisateurs sur moyenne. Mais un utilisateur d’une méthode veut quelque chose qui fonctionnera sur son problème individuel. Nous avons montré que la valeur c est une preuve de concept très pratique dans cette direction « , déclare l’auteur principal Tamara Broderick, professeur agrégé au Département de génie électrique et informatique (EECS) et membre du Laboratoire des systèmes d’information et de décision et de l’Institut des données, des systèmes et de la société.

Elle est rejointe sur le papier par Brian Trippe PhD ’22, un ancien étudiant diplômé du groupe de Broderick qui est maintenant postdoctoral à l’Université de Columbia; et Sameer Deshpande ’13, un ancien postdoc dans le groupe de Broderick qui est maintenant professeur adjoint à l’Université du Wisconsin à Madison. Une version acceptée de l’article est publiée en ligne dans le Journal de l’Association statistique américaine.

Évaluation des estimateurs

La valeur c est conçue pour aider à résoudre les problèmes de données dans lesquels les chercheurs cherchent à estimer un paramètre inconnu à l’aide d’un ensemble de données, comme l’estimation de la capacité de lecture moyenne des élèves à partir d’un ensemble de données de résultats d’évaluation et de réponses à un sondage auprès des élèves. Un chercheur dispose de deux méthodes d’estimation et doit décider laquelle utiliser pour ce problème particulier.

La meilleure méthode d’estimation est celle qui entraîne le moins de « pertes », ce qui signifie que l’estimation sera plus proche de la vérité terrain. Considérez à nouveau la prévision des courants océaniques : peut-être qu’être décalé de quelques mètres par heure n’est pas si mal, mais être décalé de plusieurs kilomètres par heure rend l’estimation inutile. La vérité de terrain est inconnue, cependant; le scientifique essaie de l’estimer. Par conséquent, on ne peut jamais réellement calculer la perte d’une estimation pour leurs données spécifiques. C’est ce qui rend difficile la comparaison des estimations. La valeur c aide un scientifique à relever ce défi.

L’équation de la valeur c utilise un ensemble de données spécifique pour calculer l’estimation avec chaque méthode, puis une fois de plus pour calculer la valeur c entre les méthodes. Si la valeur c est grande, il est peu probable que la méthode alternative soit pire et donne des estimations moins précises que la méthode originale.

« Dans notre cas, nous supposons que vous souhaitez rester avec l’estimateur par défaut, et que vous ne souhaitez passer au nouvel estimateur que si vous vous sentez très confiant. Avec une valeur c élevée, il est probable que la nouvelle estimation est plus précis. Si vous obtenez une faible valeur c, vous ne pouvez rien dire de concluant. Vous avez peut-être fait mieux, mais vous ne savez tout simplement pas », explique Broderick.

Sonder la théorie

Les chercheurs ont mis cette théorie à l’épreuve en évaluant trois problèmes d’analyse de données du monde réel.

D’une part, ils ont utilisé la valeur c pour aider à déterminer quelle approche est la meilleure pour modéliser les courants océaniques, un problème auquel Trippe s’est attaqué. Des modèles précis sont importants pour prédire la dispersion des contaminants, comme la pollution due à un déversement de pétrole. L’équipe a découvert que l’estimation des courants océaniques à l’aide de plusieurs échelles, une plus grande et une plus petite, donne probablement une plus grande précision qu’en utilisant uniquement des mesures à plus grande échelle.

« Les chercheurs des océans étudient cela, et la valeur c peut fournir un » punch « statistique pour soutenir la modélisation à plus petite échelle », a déclaré Broderick.

Dans un autre exemple, les chercheurs ont cherché à prédire les crimes violents dans les secteurs de recensement à Philadelphie, une application que Deshpande a étudiée. En utilisant la valeur c, ils ont constaté que l’on pouvait obtenir de meilleures estimations des taux de crimes violents en incorporant des informations sur les crimes non violents au niveau des secteurs de recensement dans l’analyse. Ils ont également utilisé la valeur c pour montrer que l’exploitation supplémentaire des données sur les crimes violents des secteurs de recensement voisins dans l’analyse n’est pas susceptible de fournir d’autres améliorations de précision.

« Cela ne veut pas dire qu’il n’y a pas d’amélioration, cela signifie simplement que nous ne sommes pas sûrs de dire que vous l’obtiendrez », dit-elle.

Maintenant qu’ils ont prouvé la valeur c en théorie et montré comment elle pourrait être utilisée pour résoudre les problèmes de données du monde réel, les chercheurs souhaitent étendre la mesure à davantage de types de données et à un ensemble plus large de classes de modèles.

Le but ultime est de créer une mesure suffisamment générale pour de nombreux autres problèmes d’analyse de données, et bien qu’il y ait encore beaucoup de travail à faire pour atteindre cet objectif, Broderick dit qu’il s’agit d’un premier pas important et passionnant dans la bonne direction.

Cette recherche a été soutenue, en partie, par une subvention Advanced Research Projects Agency-Energy, un prix CAREER de la National Science Foundation, l’Office of Naval Research et la Wisconsin Alumni Research Foundation.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*