Avec son nouvel outil d’IA, Microsoft réalise des avatars réalistes, expressifs et synchronisés dans les vidéos

Microsoft a présenté ses travaux sur un nouveau modèle d’intelligence artificielle (IA) qui donne de l’expressivité à des avatars réalistes lorsqu’ils apparaissent en train de parler dans des vidéos générées à partir d’une image statique et d’un clip vocal.

VASA est la proposition de Microsoft pour générer des visages virtuels qui parlent et gestuellent avec une grande expressivité et réalisme en temps réel, dans lesquels le mouvement des lèvres est « superbement synchronisé avec l’audio ».

Les visages qui prétendent être de vraies personnes ont été générés par les outils d’IA StyleGAN2 et DALL·E-3, mais aucun d’entre eux ne correspond à une identité réelle, comme le précise l’entreprise technologique.

Ce réalisme est renforcé par la synchronisation et « le grand spectre d’émotions et de nuances du visage » qui se combine avec le mouvement naturel de la tête, comme il l’explique sur son blog officiel.

VASA ne nécessite qu’une image statique et un extrait audio avec voix pour créer des vidéos d’une taille de 512 x 512 pixels à 45 images par seconde en mode « hors ligne », bien que « en ligne » prenne en charge 40 ips avec une latence de 170 ms. La société l’a évalué avec un ordinateur de bureau équipé d’un GPU NVIDIA RTX 4090.

Microsoft a assuré qu’il n’envisageait pas de publier cette démo de cet outil étant donné les risques potentiels qu’il présente en cas d’utilisation abusive pour se faire passer pour de vraies personnes.

Related posts