Ouvrir le menu principal

MacGeneration

Recherche

Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper

Florian Innocente

Friday 16 February 2024 à 13:00 • 151

Ailleurs

OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.

Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.

Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).

Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.

Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.

Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.

Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.

OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.

Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.

Rejoignez le Club iGen

Soutenez le travail d'une rédaction indépendante.

Rejoignez la plus grande communauté Apple francophone !

S'abonner

Proton n’en finit plus de se diversifier et lance un portefeuille à Bitcoin

26/07/2024 à 18:00

• 11


Aux États-Unis, Apple accepte des directives gouvernementales sur la sécurité de l'IA

26/07/2024 à 16:00

• 7


Elgato : après le Stream Deck, voici le Stream Dock

26/07/2024 à 14:00

• 3


Xcode 16 : la saisie prédictive du code devient compatible avec les Mac à 8 Go de RAM

26/07/2024 à 13:00

• 62


Comment regarder les Jeux olympiques de Paris en 4K avec HDR ?

26/07/2024 à 11:00

• 12


Des problèmes de connexion en ce moment ? Désactivez le relais privé iCloud

26/07/2024 à 10:12

• 24


SearchGPT : OpenAI expérimente un moteur de recherche intégré à terme dans ChatGPT

26/07/2024 à 09:40

• 16


Adobe nie être accro à l’héroïne

26/07/2024 à 09:00

• 32


Fortnite sera disponible sur AltStore PAL et d’autres boutiques tierces sur mobile

26/07/2024 à 07:53


CrowdStrike : pourquoi les Mac ont été épargnés par la panne mondiale

25/07/2024 à 20:30

• 26


Chine : Apple s’apprête à ouvrir un laboratoire pour tester ses produits dans des conditions extrêmes

25/07/2024 à 18:30

• 15


L'antenne Starlink Mini est disponible en France, pour 339 €

25/07/2024 à 17:00

• 7


Google explique comment Chrome anticipe le téléchargement de malwares

25/07/2024 à 15:30

• 3


Quand un iMac G4 devient un M2 Tournesol

25/07/2024 à 14:30

• 20


Dans Microsoft Bing, l’“intelligence” artificielle repousse le web humain

25/07/2024 à 11:45

• 18


iOS 18 : Apple Intelligence fera bien ses premiers pas dans les bêtas de cet été

25/07/2024 à 10:00

• 26