Utiliser le son pour modéliser le monde


Imaginez les accords tonitruants d’un orgue à tuyaux résonnant dans le sanctuaire caverneux d’une immense cathédrale de pierre.

Le son qu’un visiteur de la cathédrale entendra est affecté par de nombreux facteurs, y compris l’emplacement de l’orgue, l’endroit où se tient l’auditeur, si des colonnes, des bancs ou d’autres obstacles se dressent entre eux, de quoi sont faits les murs, les emplacements des fenêtres ou portes, etc. Entendre un son peut aider quelqu’un à visualiser son environnement.

Des chercheurs du MIT et du MIT-IBM Watson AI Lab explorent l’utilisation des informations acoustiques spatiales pour aider les machines à mieux imaginer leur environnement également. Ils ont développé un modèle d’apprentissage automatique qui peut capturer la façon dont n’importe quel son dans une pièce se propagera dans l’espace, permettant au modèle de simuler ce qu’un auditeur entendrait à différents endroits.

En modélisant avec précision l’acoustique d’une scène, le système peut apprendre la géométrie 3D sous-jacente d’une pièce à partir d’enregistrements sonores. Les chercheurs peuvent utiliser les informations acoustiques capturées par leur système pour créer des rendus visuels précis d’une pièce, de la même manière que les humains utilisent le son pour estimer les propriétés de leur environnement physique.

En plus de ses applications potentielles en réalité virtuelle et augmentée, cette technique pourrait aider les agents d’intelligence artificielle à développer une meilleure compréhension du monde qui les entoure. Par exemple, en modélisant les propriétés acoustiques du son dans son environnement, un robot d’exploration sous-marine pourrait détecter des choses plus éloignées qu’il ne le pourrait avec la seule vision, explique Yilun Du, un étudiant diplômé du Département de génie électrique et d’informatique ( EECS) et co-auteur d’un article décrivant le modèle.

« La plupart des chercheurs se sont concentrés uniquement sur la modélisation de la vision jusqu’à présent. Mais en tant qu’êtres humains, nous avons une perception multimodale. Non seulement la vision est importante, mais le son est également important. Je pense que ce travail ouvre une direction de recherche passionnante sur une meilleure utilisation du son pour modéliser le monde. « , dit Du.

Rejoindre Du sur le papier sont l’auteur principal Andrew Luo, un étudiant diplômé à l’Université Carnegie Mellon (CMU); Michael J. Tarr, professeur Kavčić-Moura de sciences cognitives et cérébrales à la CMU ; et les auteurs principaux Joshua B. Tenenbaum, professeur de développement de carrière Paul E. Newton en sciences cognitives et calcul au département des sciences cérébrales et cognitives du MIT et membre du laboratoire d’informatique et d’intelligence artificielle (CSAIL); Antonio Torralba, professeur de génie électrique et d’informatique de Delta Electronics et membre du CSAIL ; et Chuang Gan, membre principal du personnel de recherche du MIT-IBM Watson AI Lab. La recherche sera présentée à la conférence sur les systèmes de traitement de l’information neuronale.

Son et vision

Dans la recherche sur la vision par ordinateur, un type de modèle d’apprentissage automatique appelé modèle de représentation neuronale implicite a été utilisé pour générer des reconstructions fluides et continues de scènes 3D à partir d’images. Ces modèles utilisent des réseaux neuronaux, qui contiennent des couches de nœuds interconnectés, ou neurones, qui traitent les données pour accomplir une tâche.

Les chercheurs du MIT ont utilisé le même type de modèle pour capturer la façon dont le son se déplace en continu à travers une scène.

Mais ils ont découvert que les modèles de vision bénéficient d’une propriété connue sous le nom de cohérence photométrique qui ne s’applique pas au son. Si l’on regarde le même objet à partir de deux endroits différents, l’objet semble à peu près le même. Mais avec le son, changez de lieu et le son que vous entendez peut être complètement différent en raison des obstacles, de la distance, etc. Cela rend la prédiction audio très difficile.

Les chercheurs ont surmonté ce problème en incorporant deux propriétés de l’acoustique dans leur modèle : la nature réciproque du son et l’influence des caractéristiques géométriques locales.

Le son est réciproque, ce qui signifie que si la source d’un son et un auditeur changent de position, ce que la personne entend reste inchangé. De plus, ce que l’on entend dans une zone particulière est fortement influencé par des caractéristiques locales, comme un obstacle entre l’auditeur et la source du son.

Pour incorporer ces deux facteurs dans leur modèle, appelé champ acoustique neuronal (NAF), ils augmentent le réseau neuronal avec une grille qui capture les objets et les caractéristiques architecturales de la scène, comme les portes ou les murs. Le modèle échantillonne aléatoirement des points sur cette grille pour apprendre les caractéristiques à des emplacements spécifiques.

« Si vous vous imaginez debout près d’une porte, ce qui affecte le plus fortement ce que vous entendez est la présence de cette porte, pas nécessairement des caractéristiques géométriques éloignées de vous de l’autre côté de la pièce. Nous avons trouvé que cette information permet une meilleure généralisation qu’une simple réseau connecté », explique Luo.

De la prédiction des sons à la visualisation des scènes

Les chercheurs peuvent alimenter les informations visuelles NAF sur une scène et quelques spectrogrammes qui montrent à quoi ressemblerait un morceau d’audio lorsque l’émetteur et l’auditeur sont situés à des emplacements cibles autour de la pièce. Ensuite, le modèle prédit à quoi ressemblerait cet audio si l’auditeur se déplaçait à n’importe quel point de la scène.

Le NAF produit une réponse impulsionnelle, qui capture la manière dont un son doit changer au fur et à mesure qu’il se propage dans la scène. Les chercheurs appliquent ensuite cette réponse impulsionnelle à différents sons pour entendre comment ces sons devraient changer lorsqu’une personne marche dans une pièce.

Par exemple, si une chanson est diffusée à partir d’un haut-parleur au centre d’une pièce, leur modèle montrera comment ce son devient plus fort lorsqu’une personne s’approche du haut-parleur, puis s’étouffe lorsqu’elle entre dans un couloir adjacent.

Lorsque les chercheurs ont comparé leur technique à d’autres méthodes qui modélisent les informations acoustiques, elles ont généré des modèles sonores plus précis dans tous les cas. Et parce qu’il a appris des informations géométriques locales, leur modèle a pu se généraliser à de nouveaux emplacements dans une scène bien mieux que d’autres méthodes.

De plus, ils ont découvert que l’application des informations acoustiques que leur modèle apprend à un modèle de vision par ordinateur peut conduire à une meilleure reconstruction visuelle de la scène.

« Lorsque vous n’avez qu’un ensemble clairsemé de vues, l’utilisation de ces fonctionnalités acoustiques vous permet de capturer les limites plus précisément, par exemple. Et c’est peut-être parce que pour restituer avec précision l’acoustique d’une scène, vous devez capturer la géométrie 3D sous-jacente de cette scène », dit Du.

Les chercheurs prévoient de continuer à améliorer le modèle afin qu’il puisse se généraliser à de toutes nouvelles scènes. Ils souhaitent également appliquer cette technique à des réponses impulsionnelles plus complexes et à des scènes plus vastes, telles que des bâtiments entiers ou même une ville ou une ville.

« Cette nouvelle technique pourrait ouvrir de nouvelles opportunités pour créer une expérience immersive multimodale dans l’application métavers », ajoute Gan.

Ce travail est soutenu, en partie, par le MIT-IBM Watson AI Lab et le Tianqiao and Chrissy Chen Institute.

Vidéo : https://youtu.be/9HavzvJuQls

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*