Le générateur vidéo IA d’Alibaba vient de se lancer sur Sora en faisant chanter la dame Sora

thegames15mars 15, 2024

0 4 minutes de lecture

Alibaba souhaite que vous compariez son nouveau générateur vidéo AI à Sora d’OpenAI. Sinon, pourquoi l’utiliser pour faire de la création la plus célèbre de Sora une chanson de Dua Lipa ?

Mardi, une organisation appelée « Institute for Intelligent Computing » au sein du géant chinois du commerce électronique Alibaba a publié un papier à propos d’un nouveau générateur vidéo d’IA intrigant qu’il a développé et qui est incroyablement efficace pour transformer des images fixes de visages en acteurs passables et chanteurs charismatiques. Le système s’appelle EMO, un backronym amusant censé être tiré des mots « Emotive Portrait Alive » (mais, dans ce cas, pourquoi ne s’appelle-t-il pas « EPO » ?).

EMO est un aperçu d’un avenir dans lequel un système comme Sora crée des mondes vidéo et, plutôt que d’être peuplé de des gens muets et attrayants qui se regardent un peules « acteurs » de ces créations d’IA disent des trucs – ou même chantent.

Alibaba a mis des vidéos de démonstration sur GitHub pour montrer son nouveau framework de génération de vidéos. Celles-ci incluent une vidéo de la dame Sora – célèbre pour se promener dans Tokyo généré par l’IA juste après une tempête de pluie – chantant “Don’t Start Now” de Dua Lipa et devenant assez funky avec cela.

Les démos révèlent également comment EMO peut, pour ne citer qu’un exemple, faire prononcer à Audrey Hepburn l’audio d’un clip viral de RiverdaleLili Reinhart parle de combien elle aime pleurer. Dans ce clip, la tête de Hepburn maintient une position verticale plutôt semblable à celle d’un soldat, mais tout son visage – pas seulement sa bouche – semble vraiment exprimer les mots de l’audio.

Contrairement à cette étrange version de Hepburn, Reinhart dans le clip original bouge beaucoup la tête, et elle émet également des émotions très différentes, donc EMO ne semble pas être un riff sur le genre d’échange de visage IA qui est devenu viral au milieu des années 2010 et a conduit à la montée des deepfakes en 2017.

Au cours des dernières années, des applications conçues pour générer des animations faciales à partir de l’audio sont apparues, mais elles n’ont pas été très inspirantes. Par exemple, le progiciel NVIDIA Omniverse vante une application avec un cadre d’animation audio vers visage appelé “Audio2Face” – qui s’appuie sur l’animation 3D pour ses sorties plutôt que de simplement générer une vidéo photoréaliste comme EMO.

Bien qu’Audio2Face n’ait que deux ans, la démo EMO le fait ressembler à une antiquité. Dans une vidéo qui prétend montrer sa capacité à imiter les émotions tout en parlant, le visage 3D qu’elle représente ressemble davantage à une marionnette dans un masque d’expression faciale, tandis que les personnages d’EMO semblent exprimer les nuances d’émotions complexes qui apparaissent dans chaque clip audio. .

Il convient de noter à ce stade que, comme pour Sora, nous évaluons ce framework d’IA sur la base d’une démo fournie par ses créateurs, et que nous n’avons pas réellement la main sur une version utilisable que nous puissions tester. Il est donc difficile d’imaginer que dès le départ, ce logiciel puisse produire des performances faciales humaines aussi convaincantes, basées sur l’audio, sans essais et erreurs significatifs, ni ajustements spécifiques à une tâche.

La plupart des personnages des démos n’expriment pas un discours qui appelle des émotions extrêmes – des visages déformés par la rage ou fondant en larmes, par exemple – il reste donc à voir comment EMO gérerait les émotions fortes avec l’audio seul comme guide. . De plus, bien qu’il soit fabriqué en Chine, il est décrit comme un polyglotte total, capable de capter la phonétique de l’anglais et du coréen et de faire en sorte que les visages forment les phonèmes appropriés avec une fidélité décente, bien que loin d’être parfaite. En d’autres termes, ce serait bien de voir ce qui se passerait si vous mettiez dans EMO l’audio d’une personne très en colère parlant une langue moins connue pour voir à quel point cela fonctionnait.

Les petits embellissements entre les phrases – lèvres pincées ou regard vers le bas – qui insèrent de l’émotion dans les pauses plutôt que simplement dans les moments où les lèvres bougent sont également fascinants. Ce sont des exemples de la façon dont un vrai visage humain émeut, et il est tentant de voir EMO les réussir si bien, même dans une démo aussi limitée.

Selon le document, le modèle d’EMO s’appuie sur un vaste ensemble de données audio et vidéo (encore une fois : d’où ?) pour lui donner les points de référence nécessaires pour émettre une émotion de manière aussi réaliste. Et son approche basée sur la diffusion ne comporte apparemment pas d’étape intermédiaire dans laquelle les modèles 3D font une partie du travail. UN mécanisme de référence-attention et un séparé mécanisme d’audio-attention sont associés par le modèle d’EMO pour fournir des personnages animés dont les animations faciales correspondent à ce qui apparaît dans l’audio tout en restant fidèles aux caractéristiques faciales de l’image de base fournie.

C’est une collection impressionnante de démos, et après les avoir regardées, il est impossible de ne pas imaginer ce qui va suivre. Mais si vous gagnez votre argent en tant qu’acteur, essayez de ne pas trop imaginer, car les choses deviennent assez vite perturbantes.