L’évolution surprenante des avatars numériques – Juventud Rebelde

-

Le chemin vers l’intelligence artificielle comporte de nombreuses bifurcations. L’une d’elles conduit à la création de vidéos hyperréalistes, une technologie perfectionnée à chaque présentation par les géants du marché.

Les expressions sont presque impeccables. Sachant que ce que je vois n’est pas « réel », je distingue un mouvement « étrange » de la bouche, un sourire un peu exagéré ou un clignement « excessif ». Cependant, si j’avais regardé les vidéos sans savoir à quoi j’avais affaire, je n’aurais rien remarqué. Ce sont simplement des gens ordinaires qui parlent de sujets différents. Sauf qu’il ne s’agit pas de personnes, mais de constructions numériques générées par l’intelligence artificielle, capables de reproduire la vie réelle avec une fidélité troublante.

La semaine dernière, Microsoft a dévoilé une nouvelle intelligence artificielle (IA), appelée VASA-1, capable de créer des avatars humains hyperréalistes à partir d’une image et d’un fichier vocal.

Cette technologie peut donner vie à nos photographies, en ajoutant des expressions et en synchronisant le mouvement des lèvres avec le clip sonore. C’est une synchronisation parfaite qui a même fait chanter le thème à la Joconde de Da Vinci. Paparazzid’Anne Hathaway, parmi les exemples de vidéos dévoilées par Microsoft.

Comment fonctionne Vasa-1

Selon les chercheurs, VASA-1 capture toute la gamme des expressions humaines, y compris les mouvements naturels de la tête, pour générer des avatars parlants vraiment crédibles. Ceci est possible en séparant des éléments tels que les traits du visage, la position de la tête et les expressions, permettant un contrôle détaillé de chaque attribut et la possibilité de modifier le contenu séparément.

L’intelligence artificielle de Microsoft utilise une approche 3D pour capturer plus de détails sur le visage et la façon dont il se déplace dans l’espace tridimensionnel. Le modèle de diffusion accepte des indices supplémentaires, tels que la direction principale du regard et la distance de la tête, ainsi que les émotions. Avec la même piste audio, VASA-1 peut générer des avatars joyeux, colériques ou nerveux, qui cherchent à se rapprocher du réalisme.

VASA-1 peut produire des vidéos de haute qualité dans une résolution de 512 x 512 pixels à 45 images par seconde. Les chercheurs ont souligné son efficacité, puisque l’outil peut fonctionner sur un ordinateur équipé d’une carte graphique Nvidia RTX 4090.

L’intelligence artificielle de Microsoft, qui pour l’instant n’est qu’expérimentale et non accessible au public, ne se limite pas aux photographies réelles, elle peut également être appliquée dans des illustrations ou des peintures, comme la Joconde susmentionnée. Les avatars hyperréalistes pourraient révolutionner la façon dont nous interagissons dans le monde numérique.

Une technologie en plein essor

Si vous effectuez une recherche sur Internet, vous constaterez qu’il existe de nombreux outils gratuits pour créer des avatars grâce à l’intelligence artificielle, même si beaucoup fournissent des résultats de qualité douteuse. Cependant, les efforts de Microsoft ne sont pas les seuls à donner des résultats surprenants.

En janvier, Google a présenté Lumiere, une IA permettant de générer des vidéos à partir de texte. Lumiere se distingue par son architecture spatio-temporelle, qui lui permet de générer des clips entiers en une seule étape, évitant ainsi l’incohérence temporelle observée dans les modèles précédents. Cette fonctionnalité est essentielle pour obtenir de la fluidité et de la cohérence dans des vidéos qui ressemblent de plus en plus à la réalité.

De plus, Lumiere facilite le processus de montage vidéo pour les utilisateurs ayant peu de connaissances, vous permettant de modifier des parties spécifiques avec un simple masque et une commande de texte. Il est également possible de générer des « vidéos stylisées » qui esthétique est très à la mode en ce moment – ​​utiliser une image de référence, ce qui représentait jusqu’à présent un défi considérable.

Pendant ce temps, le 15 février est arrivé Sora, un outil développé par OpenAI qui permet de générer des vidéos réalistes à partir d’une phrase de texte. Avec lui, vous pouvez détailler le mouvement, le décor et la transition des scènes, d’une durée maximale d’une minute.

Comme GPT-4 ou DALL-E 3, Sora utilise le système d’apprentissage profond des réseaux de neurones artificiels et des structures informatiques pour apprendre de grandes quantités de données et les appliquer pour créer des choses entièrement nouvelles. Sora s’est entraîné avec de nombreuses vidéos et descriptions pour comprendre et apprendre comment fonctionne ce type d’environnement multimédia et l’appliquer à ses propres créations.

VASA-1 est l’évolution de Sora et Lumière, car il n’utilise pas de texte, mais des voix pour générer ses avatars.

Clés pour comprendre

Deux concepts essentiels pour évaluer le potentiel des intelligences artificielles sont la formation et l’inférence. Ces termes passent souvent inaperçus, mais sont essentiels pour mesurer la capacité de ces systèmes à fonctionner de manière optimale.

La formation est le premier aspect à considérer. Il fait référence au volume de données avec lequel l’IA a été entraînée pour créer de nouvelles choses. Vous ne construisez rien à partir de zéro, mais vous vous basez plutôt sur ce que vous avez appris. C’est quelque chose que les humains expérimentent également lorsqu’ils apprennent à créer de nouvelles choses. Plus le volume de données avec lequel l’IA a été entraînée est important, plus il lui sera facile de générer des variations notables dans la vidéo générée.

Vidéo générée avec l’intelligence artificielle Sora d’OpenAI.

L’inférence est l’autre aspect fondamental. Sans cela, il serait très difficile pour l’IA de comprendre les humains et de répondre avec succès à nos demandes. L’inférence est la capacité de comprendre et d’adhérer à nos demandes pour les satisfaire avec succès. Plus la capacité de compréhension est grande, plus elle sera précise. Les ingénieurs derrière l’IA ont une approche claire : les modèles de langage doivent comprendre nos demandes, même si nous nous expliquons mal.

Mais Sora pose aussi un problème : la difficulté de faire la distinction entre une vidéo réelle et une vidéo créée avec l’intelligence artificielle, comme c’est déjà le cas pour les images. Cela ouvre la porte à la prolifération de fausses vidéos sur les réseaux sociaux, qui peuvent montrer des situations irréalistes avec des personnes célèbres. Il est donc important qu’il y ait une réglementation et des limites à l’utilisation de cette technologie.

Un problème dans le pipeline

Cependant, ce type d’intelligence artificielle présente également un côté dangereux. Des avatars et des vidéos hyperréalistes pourraient être utilisés pour tromper les utilisateurs. Dans ce contexte, Microsoft s’est déclaré opposé à toute application négative et a indiqué qu’il ne publierait pas cet outil tant qu’il ne serait pas sûr que sa technologie sera utilisée de manière responsable.

«Nous nous opposons à tout comportement créant du contenu trompeur ou préjudiciable provenant de personnes réelles et souhaitons appliquer notre technique pour faire progresser la détection des contrefaçons. “Nous nous engageons à développer l’IA de manière responsable, dans le but de promouvoir le bien-être humain”, a déclaré l’entreprise.

Malgré les bonnes intentions de Microsoft – également partagées par Google et OpenAI – la vérité est que des controverses ont déjà surgi avec des modèles capables de générer des images. Souvenons-nous de l’année dernière des fausses photos de Donald Trump arrêté et résistant, du pape François rappant ou mannequin, ou encore du président américain Joe Biden se battant dans une rue entourée d’explosions et de balles.

Tous ont été créés avec Midjourney, un outil qui a éliminé son modèle d’accès gratuit pour éviter la prolifération de fausses nouvelles. La vérité est qu’en cette ère de post-vérité, où nous devons douter de tout ce que nous voyons, lisons ou entendons, au moins jusqu’à ce que nous soyons sûrs que cela est vrai grâce à des sources fiables, des outils comme VASA-1, Sora ou Lumiere sont également une alerte. . de l’importance des nouvelles réglementations et des limites à l’utilisation de ces technologies.

-

PREV Ignació Baladán proposera le mariage à La Segura dans La Maison des Célèbres
NEXT La plante très courante dans votre cuisine qui soulage les problèmes respiratoires et plus encore en ces journées froides