Meta construit des modèles d’IA qui fournissent des sons réalistes en VR


Meta construit des modèles d'IA qui fournissent des sons réalistes en VR

Méta (Auparavant Facebook) a construit trois nouvelles intelligences artificielles (IA) modèles conçus pour rendre le son plus réaliste dans les expériences de réalité mixte et virtuelle.

Les trois modèles d’IA — Correspondance visuelle-acoustique, Déréverbération visuellement informée et VisualVoice – se concentrent sur la parole et les sons humains dans la vidéo et sont conçus pour « nous pousser vers une réalité plus immersive à un rythme plus rapide », a déclaré la société dans un communiqué.

« L’acoustique joue un rôle dans la façon dont le son sera ressenti dans le métaverse, et nous pensons que l’IA sera essentielle pour fournir une qualité sonore réaliste », ont déclaré les chercheurs en IA de Meta et les spécialistes audio de son équipe Reality Labs.

Ils ont construit les modèles d’IA en collaboration avec des chercheurs de l’Université du Texas à Austin, et rendent ces modèles de compréhension audiovisuelle ouverts aux développeurs.

Le modèle d’appariement visuel-acoustique auto-supervisé, appelé AViTARajuste le son pour qu’il corresponde à l’espace d’une image cible.

L’objectif de formation auto-supervisé apprend la correspondance acoustique à partir de vidéos Web dans la nature, malgré leur manque d’audio acoustiquement incompatible et de données non étiquetées, a informé Meta.

VisualVoice apprend d’une manière similaire à la façon dont les gens maîtrisent de nouvelles compétences, en apprenant des signaux visuels et auditifs à partir de vidéos sans étiquette pour obtenir une séparation audio-visuelle de la parole.

Par exemple, imaginez pouvoir assister à une réunion de groupe dans le métaverse avec des collègues du monde entier, mais au lieu que les gens aient moins de conversations et se parlent, la réverbération et l’acoustique s’ajusteraient en conséquence lorsqu’ils se déplaceraient dans l’espace virtuel et se joindraient petits groupes.

« VisualVoice se généralise bien aux vidéos difficiles du monde réel de divers scénarios », a déclaré Méta IA des chercheurs.

FacebookTwitterLinkedin


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*