Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper

Florian Innocente |

OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.

Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.

Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).

Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.

Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.

Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.

Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.

OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.

Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.

avatar v1nce29 | 

le pire pire.

avatar Scooby-Doo | 

@v1nce29,

« le pire pire. »

Cela empire !

😁

avatar fleeBubl | 

@Tech

La fièvre, cet avenir

La fièvre du samedi pas trop ce soir

Commençons le jeudi suivi de trois jours sans

avatar Arnaud33 | 

« D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. »

Il est la le problème qui va regarder ces vidéos image par image avec l’œil collé à l’écran …
Les réseaux passent des millions de vidéos par secondes et il suffit qu’une vidéo montre quelques chose qui enflamme le RS pour créer une émeutes

avatar gwen | 

C’est assez impressionnant et même certaines erreurs sont amusantes et restent assez crédible. La chaise qui apparaît par magie et prend vie est assez bluffante. On sent bien l’analyse d’animaux marin pour cette création.

Par contre c’est sur que les jambes qui passent de droite à gauche plusieurs fois dans la première vidéo ne devrait pas être trop difficile à corriger. Mais c’est amusant qu’il s’emmêle les pinceaux comme ça. lol.😂

avatar hartgers | 

Terrifiant de réalisme. On reste quand même toujours proche du matériau type "stock shot" pour des publicités, qui est un marché important mais très repoussant esthétiquement. Des personnages stéréotypés, dans des lieux à la fois génériques et spécifiques. L'industrie des effets visuels va s'emparer de ces technologies pour faire de meilleurs effets spéciaux à un coût plus faible. Il manque encore un éditeur visuel de ces images, qui pourrait permettre par exemple de corriger certains détails. Les éditeurs de logiciels ont encore plein de cartes à jouer pour implémenter cela dans Final Cut Pro, Premiere, After Effects, Nuke, DaVinci Resolve, etc.

avatar donatello | 

On sait quand ça va être interdit par Thierry Breton ?

avatar Scooby-Doo | 

@donatello,

« On sait quand ça va être interdit par Thierry Breton ? »

Oh ils doivent déjà être en train d'en discuter !

L'Europe, cette passoire à importations diverses et variées qui refoulent tout ce qui peut être un marché d'avenir !

Téléphonie mobile, panneau solaire, microélectronique, médicaments, etc., nous avons tout exporté en Asie principalement.

En créant dans le même temps des contraintes de dingue en Europe pour décourager tout le monde in situ !

😁

avatar MGA | 

@donatello

Pas besoin d’interdire juste imposer un logo « fake » sur toutes les images produites les modèles d’IA et visible depuis l’Europe et tient pour rire certifiés par un certificat NFT… compliqué mais c’est pas notre problème et nul doute que l’Europe serait suivie par de nombreux pays qui se posent déjà des questions sur le sujet. Toute diffusion de montage par IA sans marquage entraînant une amande automatique de 10% du CA mondial. Et hop le budget de l’Europe n’est plus un problème.

avatar CoralRationalNightingale | 

@MGA

Trop couillon pour appliquer 😉

On préfère l’austérité 😎

avatar donatello | 

@MGA

Oui de manière générale, toutes les conneries de l’Europe sur la tech sont suivies par le reste du monde [rires dans la salle].

avatar MGA | 

@donatello

Certaines conneries oui… heureusement pas toutes mais comme on aime bien les conneries on arrive même à les importer.

avatar Crunch Crunch | 

Impressionnant et surtout: Effrayant ! 😨
Le jour où cette puissance énorme sera mise au service de la mise en esclavage de l’humanité arrivera, on sera foutu…

Perso, j’ai sincèrement peur !

avatar Karamazow | 

@Crunch Crunch

Quand je vous lis j’ai peur… mais peut être pas pour la même raison que vous !

😅

avatar Scooby-Doo | 

@Crunch Crunch,

Avoir peur ? Sérieux ?

Du coup quand vous avez vu le premier long-métrage en images de synthèse, Toy Story, qui n'avait visiblement pas le look d'un dessin animé traditionnel, généré par d'horribles ordinateurs, vous étiez terrorisé ?

😁

Personnellement, il suffit juste de regarder les informations à la télévision pour avoir de bonnes raisons de trembler !

👌

avatar Crunch Crunch | 

@Scooby-Doo

La différence avec les AI, c’est que cela se génère SEUL !

Jusqu’à nouvel avis, Toy Story et autres creation étaient réalisés par des être humain ! La RIEN de tout cela !

Hier: Les images fixes
Aujourd’hui: La vidéo
Demain: Les GPU ?
Apres-Demain: Des usines entièrement gérée et alimentée par IA
Apres-apès demain: Singularité technologique -> FIN de l’histoire pour nous… 😨

avatar Scooby-Doo | 

@Crunch Crunch,

« La différence avec les AI, c’est que cela se génère SEUL ! »

Ce que j'ai testé, la réponse est non !

Il faut une semence ou requête pour que la vidéo soit générée.

Et c'est ce point de départ qui guide le reste !

Prochaine étape : on demande à une IA générative d'écrire un scénario sur un thème et des acteurs/personnages précis, et on connecte le produit de la génération à une IGA vidéo !

Zut, j'ai comme l'impression que mon idée est déjà en phase de tests !

😁

Je ne vous parle même pas du secteur de la post synchronisation qui va être totalement chamboulé !

🙃

avatar raoolito | 

la machine vaincra l'homme! elle ne dit jamais "j'ai peur" pour des raisons purement superstitieuses d'angoisse du lendemain ! (deja ca voterait moins extremes si c'etait pas le cas)

avatar Adodane | 

Incroyable Apple ! Toujours au top !

avatar Scooby-Doo | 

@Adodane,

« Incroyable Apple ! Toujours au top ! »

C'est peut-être pour cela que l'action Microsoft n'est pas au plus bas ces derniers temps !

Et c'est bien parti pour continuer :

https://www.lesechos.fr/tech-medias/intelligence-artificielle/ia-microsoft-investit-plus-de-3-milliards-deuros-en-allemagne-2076645

Pendant ce temps-là, notre Super Tim fait joujou avec son masque de plongée virtuelle !

😁

Cherchez pas !

Il fut une époque, jamais j'aurais envisagé que Microsoft soit en tête dans le dernier cri technologique !

Faut croire que le patron est bon visionnaire !

👌

avatar gillesb14 | 

Ce qui est amusant, c'est que bientôt on pourra dire d'une vidé gênante "N'importe quoi c'est une vidéo générée par IA".... Et il sera difficile de convaincre sur la base d'une vidéo (C'était déjà le cas avec une photo (Shoppée)!!

avatar Scooby-Doo | 

@gillesb14,

Mais cela fait plus de trente ans au moins que l'on peut bidouiller informatiquement des images avec des outils de type Photoshop !

Et avant, c'était fait au développement des négatifs !

La manipulation par l'image ou le son, ça existe depuis presque un siècle !

😁

avatar gwen | 

@Scooby-Doo

"La manipulation par l'image ou le son, ça existe depuis presque un siècle !"

La on parle de vidéos. Et non, ça n’a jamais été facile de faire de fausses images. Ça prenait beaucoup de temps humain et de sérieuses motivation. Et pour une vidéo encore plus.

avatar Scooby-Doo | 

@gwen,

« La on parle de vidéos. Et non, ça n’a jamais été facile de faire de fausses images. Ça prenait beaucoup de temps humain et de sérieuses motivation. Et pour une vidéo encore plus. »

Mais qu'est-ce qu'il ne faut pas lire sur ce forum !

😁

L'explosion du marché de la post production en matière d'effets spéciaux, cela remonte à la fin des années 70, Star Wars oblige.

Avant c'était artisanal. Les Britanniques étaient très bons en ce domaine notamment !

Même Louis Lumière et Georges Méliès faisaient des effets spéciaux (optiques) !

Et la double exposition par exemple, cela ne demandait pas beaucoup d'efforts, juste de l'organisation !

😁

avatar gwen | 

@Scooby-Doo

"Même Louis Lumière et Georges Méliès faisaient des effets spéciaux (optiques) !"

Sauf que personne n’était trompé par ces effets (ce n’était pas le but). Et ces réalisateurs ne produisait pas 500 films chacun par jour. Cela prenait du temos et demandait beaucoup de réflexion et de savoir faire.

Quand aux images de propagande, en effet, ça a toujours existé mais cela nécessitait une bonne dose de savoir faire pour être crédible.

avatar Scooby-Doo | 

@gwen,

Okay vous abordez le problème du volume versus travail artisanal !

Merci de partir en croisade contre l'industrie qui n'a eu de cesse de vouloir automatiser et améliorer la productivité !

Ah, vous pensiez naïvement que cela resterait cantonné aux travaux manuels.

L'incroyable supériorité des intellectuels sur les ouvriers et agriculteurs peut-être !

Ensuite, vous savez Forrest Gump (Tom Hanks) n'a pas vraiment rencontré John Fitzgerald Kennedy et encore moins lui avoir serré la main !

Pourtant :

https://m.youtube.com/watch?v=AOVNc3t0ZJs

😁

« Sauf que personne n’était trompé par ces effets (ce n’était pas le but). »

Absolument et factuellement faux !

La première projection d'un train arrivant en gare de la Ciotat provoqua un vent de panique dans la modeste salle de cinéma !

Le public était persuadé qu'ils allaient se faire écraser par le train !

Comme quoi…

😁

avatar gwen | 

@Scooby-Doo

"La première projection d'un train arrivant en gare de la Ciotat provoqua un vent de panique dans la modeste salle de cinéma !"

On parle là de personne qui n’avaient jamais vu de film. De personne qui ne comprenaient même pas la technique. C’est quand même très différent et surtout ce film n’a jamais été réalisé pour effrayer les gens.

avatar Scooby-Doo | 

@gwen,

« On parle là de personne qui n’avaient jamais vu de film. De personne qui ne comprenaient même pas la technique. C’est quand même très différent et surtout ce film n’a jamais été réalisé pour effrayer les gens. »

👍

Mais les effets spéciaux des années 50 dans les films de science-fiction ou d'horreur pour les spectateurs de l'époque, ils étaient incroyablement réalistes et convaincants !

Aujourd'hui, ils sont parfaitement désuets et pourtant si sympas à regarder pour les connaisseurs !

C'est notre œil, gavé d'effets spéciaux, qui devient exigeant et discriminant !

Le regard, cela s'éduque et s'entretient !

😁

avatar MGA | 

@Scooby-Doo

Les films dont vous parlez sont des fictions présentées comme tels. Certaines productions avaient pour ambition d’être plausible visuellement mais pas toutes. En tout cas il n’était pas question de « tromper » au delà du temps de visionnage.

avatar Scooby-Doo | 

@MGA,

Peut-être mais ces effets spéciaux aujourd'hui vintage étaient crédibles pour l'audience de l'époque.

C'est juste notre regard qui évolue avec le temps.

Pour s'en convaincre, je vous invite à revisionner des films de science-fiction vieux de seulement 10 ans et vous serez surpris de trouver certains vieillots avec des effets spéciaux qui se voient !

🧐

avatar MGA | 

@Scooby-Doo

Je ne partage pas votre point de vue sur l’Intention des productions cinématographiques. Et malheureusement l’IA ne fabrique pas du cinéma car il n’y a pas de cadre qui délimite la réalité de la fiction.

avatar BingoBob | 

@Scooby-Doo

En effet, je travaille dans le cinéma et regarder un sfx, c’est immédiatement savoir la décennie où a été réalisé le film.
C’est encore plus facile avec les films remasterisés en 4k, avec des effets spéciaux de l’époque en 2k… Là, ça saute aux yeux !

avatar Scooby-Doo | 

@BingoBob,

« En effet, je travaille dans le cinéma et regarder un sfx, c’est immédiatement savoir la décennie où a été réalisé le film.

C’est encore plus facile avec les films remasterisés en 4k, avec des effets spéciaux de l’époque en 2k… Là, ça saute aux yeux ! »

👍

D'un seul coup, je me sens nettement moins seul !

Et comme je suis cinéphile et téléphile, je regarde les vieux films et les vieilles séries avec beaucoup de plaisir.

Les décors, les costumes, les effets spéciaux sont d'époque, mais personnellement, cela ne me dérange en aucune manière.

Je prends beaucoup de plaisir à revoir ces œuvres.

Après je peux comprendre que le spectateur d'aujourd'hui ne soit pas intéressé.

« La Belle et la Bête » de Jean Cocteau, « Great expectations » et « La fille de Ryan » de David Lean restent mes films préférés, donc je suis hors temps !

😁

avatar gwen | 

@Scooby-Doo

"Merci de partir en croisade"

Loin de moi l’idée de militer contre l’IA. Je constat juste et comme tout outils mis entre de mauvaise main cela peut s’avérer dangereux comme extrêmement intéressant et inventif.

avatar philoche | 

@Scooby-Doo

« La première projection d'un train arrivant en gare de la Ciotat provoqua un vent de panique dans la modeste salle de cinéma ! »

Heuuuu, non…. C’est une légende. Les personnes ont été impressionnées mais il n’y a pas eu de panique dans la salle.

avatar Scooby-Doo | 

@philoche,

J'ai écrit :

« La première projection d'un train arrivant en gare de la Ciotat provoqua un vent de panique dans la modeste salle de cinéma !

Le public était persuadé qu'ils allaient se faire écraser par le train ! »

Dans Wikipédia, la parfaite anti encyclopédie :

Une légende veut que, lors de la projection initiale, le public fut terrifié par l'image d'un train fonçant vers lui, les spectateurs criant et se précipitant à l'arrière de la salle, voire dehors.

Le journaliste Hellmuth Karasek rapporte dans Der Spiegel : « Ce court métrage a eu un impact particulièrement durable ; oui, il a provoqué la crainte, la terreur, et même la panique… »

(Je citais cette affirmation en fait).

Cette légende s'est révélée fausse, les spectateurs ayant plutôt été la proie « d'une appréhension nerveuse, d'un mouvement de recul »[3].

En gros et pour faire simple : ils ont paniqué !

😁

L'historien du cinéma Georges Sadoul évoque un sursaut des spectateurs et aucunement un recul de frayeur[4].

Le « grand écran » des premières projections privées était en vérité une simple « toile fine tendue entre deux portes »[5], et affichait donc des dimensions modestes qui ne pouvaient pas provoquer la terreur du public.

👍

Okay il faudra faire passer l'information à certains réalisateurs de documentaires sur le sujet !

😁

avatar baptiste2097 | 

« Sora a raison »

avatar 2ni | 

Après quelques mises à jour, ces bugs auront disparu et là, ça sera plus compliqué de différencier le vrai du faux. Surtout, que comme dit plus haut, il n’en faut pas beaucoup pour enflammer les réseaux sociaux, ça pourrait vite déraper !
…il a qq personnes un peu trop parano, ici. Un monde à la Terminator ou Matrix, j’y crois moyen (mais j’espère ne pas me tromper !)

avatar k2r | 

Et ça prend combien de temps de calcul, pour générer une vidéo ?

avatar Scooby-Doo | 

@k2r,

« Et ça prend combien de temps de calcul, pour générer une vidéo ? »

Sur Microsoft Azure, quelques secondes par images.

😁

avatar Ast2001 | 

Je suis de plus en plus mal à l'aise avec ces avancées. D'une part, ils ont pillé le travail de millions de créateurs, sans rétribuer qui que ce soit, et ils vont en mettre un paquet au chômage (il est d'ailleurs permis de s'interroger sur l'avenir de la création) et d'autre part, an l'absence d'un moyen 100% fiable pour identifier les vidéos ainsi produites, c'est la porte ouverte à toutes les manipulations sur un terrain qui plus est très fertile en la matière en ce moment.

avatar Scooby-Doo | 

@Ast2001,

« D'une part, ils ont pillé le travail de millions de créateurs, sans rétribuer qui que ce soit, et ils vont en mettre un paquet au chômage […] »

Vous pensez que Wikipédia rénumère pour le contenu copié ou cité et repris en lien à la fin de chaque article ?

Quel est le pourcentage réellement authentique puisque le but d'une encyclopédie, c'est de présenter un état du savoir.

Personne ne va leur reprocher de sourcer leurs affirmations sur des thèses, des articles de presse, etc.

Et Wikipédia le fait de manière absolument industrielle.

Peu d'articles sont sans références externes et donc un contenu 100 % interne !

😁

avatar gwen | 

@Scooby-Doo

"Peu d'articles sont sans références externes et donc un contenu 100 % interne !"

C’est même « aucun » dans le cas de Wikipedia car il serait refusé sans source.

avatar Scooby-Doo | 

@gwen,

« C’est même « aucun » dans le cas de Wikipedia car il serait refusé sans source. »

Négatif !

https://fr.m.wikipedia.org/wiki/Cat%C3%A9gorie:Article_sans_source/Liste_compl%C3%A8te

😁

avatar gwen | 

@Scooby-Doo

Ça dit bien que sans source cet article sera retiré. Ce n’est pas immédiat, mais ça peut arriver. Quand, cela ne le précise pas. C’est géré par des bénévoles Wikipedia. Par contre l’affichage du message est automatique.

avatar Scooby-Doo | 

@gwen,

« Ça dit bien que sans source cet article sera retiré. Ce n’est pas immédiat, mais ça peut arriver. Quand, cela ne le précise pas. C’est géré par des bénévoles Wikipedia. Par contre l’affichage du message est automatique. »

👍

avatar MGA | 

@Scooby-Doo

Alors il faut demander aux modèles d’IA de référencer toutes les sources utilisées pour la création d’une image, d’une video ou d’un texte sur le contenu produit et de façon visible…🤣 je vois déjà la longueur de la liste en milliers de pages pour une image de la taille d’un timbre poste 👍

avatar Scooby-Doo | 

@MGA,

« je vois déjà la longueur de la liste en milliers de pages pour une image de la taille d’un timbre poste »

Oh un simple pixel fera l'affaire pour générer un listing de plusieurs milliers de pages !

😁

avatar MGA | 

@Scooby-Doo

Compliqué de lire les sources sur un seul pixel…

avatar MGA | 

@Ast2001

Aucun tribunal n’ira jusqu’à remettre en cause ce pillage.
Malheureusement car la totalité les modèles originaux qui ont servis à collecter des fonds par milliards ne sont ni plus ni moins que des spoliations.
Aujourd’hui il y a visiblement un peu d’ordre mis dans tout ça mais les milliards d’origine devraient être rendus pour « la bonne cause » vu qu’il est impossible d’évaluer les préjudices individuels des créateurs.

Pages

CONNEXION UTILISATEUR