L’écosystème d’apprentissage automatique fait évoluer la conception des MOF


Des scientifiques en Suisse et aux États-Unis ont développé un écosystème d’outils pour stimuler la conception basée sur l’apprentissage automatique (ML) de cadres métal-organiques (MOF). Kevin Jablonka de l’Ecole polytechnique fédérale de Lausanne (EPFL) et ses collègues ont mis Mofdscribe à disposition des utilisateurs en décembre 2022, dont certains ont déjà publié des études l’exploitant. «Cet outil nous aide à avancer beaucoup plus vite», déclare Jablonka.

Aujourd’hui, les chimistes peuvent créer des millions de MOF distincts en connectant des nœuds métalliques et des lieurs organiques comme des kits de construction moléculaire. Les scientifiques ont créé plus de 100 000 MOF avec un nombre potentiellement illimité possible, avec des utilisations telles que la catalyse de réactions chimiques et le stockage de gaz, y compris le dioxyde de carbone.

Les blocs de construction choisis par les chimistes peuvent contrôler les propriétés du MOF, ce qui rend leur conception essentielle. Avec un vaste espace chimique à explorer, les chercheurs utilisent la conception informatique, avec des approches ML prédisant les propriétés, notamment l’adsorption de gaz, les couleurs, les états d’oxydation, les capacités thermiques, les conditions de synthèse et la stabilité de l’eau.

Travaillant dans l’équipe EPFL de Berend Smit, Jablonka était frustrée d’essayer de déterminer si les nouvelles approches ML étaient meilleures que les anciennes, trouvant cela extrêmement difficile. « C’est un domaine très jeune », raconte Smit Monde de la chimie. « Beaucoup de gens développent des approches d’apprentissage automatique et bien sûr, ils affirment tous qu’il s’agit d’une amélioration. » Mais Jablonka a même dû reproduire à partir de zéro des systèmes développés dans le groupe de Smit, car le code ne fonctionnait pas.

À partir de mars 2022, Jablonka a commencé à coder des outils pour l’ensemble du cycle de vie d’un processus de conception ML MOF. « Il vous donne des données, il vous donne des outils pour ensuite convertir les données en entrées ML, puis pour tester et comparer des modèles et également rapporter et publier les résultats », explique-t-il. Après 60 000 lignes de modifications de code, les outils sont devenus l’écosystème Mofdscribe de 20 000 lignes.

L’un des aspects clés de Mofdscribe est la résolution des problèmes liés aux fuites de données utilisées pour former les systèmes ML dans l’ensemble de test. C’est un problème car c’est comme laisser le système ML tricher sur son test en lui donnant les réponses à l’avance. Le problème se pose car la même structure peut apparaître plusieurs fois dans des ensembles de données, plus de 1000 dans le pire des cas. En tant que tel, il est facile de manquer la même structure dans les ensembles d’entraînement et de test.

Jablonka a donc développé des outils pour analyser des ensembles de données dont « personne n’a même pensé avoir besoin », selon Smit. Mofdscribe permet également à ses utilisateurs de comparer facilement les performances de différentes techniques de ML, explique Jablonka. Il comprend des liens vers des classements publics qui comparent les techniques.

Hilal Dağlar, doctorante à la Northwestern University d’Evanston, aux États-Unis, utilise déjà Mofdscribe après en avoir découvert l’existence sur ChemRxiv et Twitter. Elle dit que sa principale force est de faciliter la préparation et le nettoyage des données pour le ML. Mofdscribe facilite l’extraction des fonctionnalités des MOF, ajoute-t-elle. «Il offre un pipeline organisé spécialement pour les chercheurs non spécialistes en ML», déclare Dağlar. Cependant, elle aimerait le voir intégrer de nouveaux algorithmes de ML, dont le deep learning, et ajoute que les fonctionnalités de Mofdscribe doivent rester à jour pour éviter que son utilisation ne diminue.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*