Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper

Florian Innocente | 16/02/2024 à 13:00

OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.

Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.

Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).

Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.

Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.

Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.

Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.

OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.

Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.