Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper

Florian Innocente |

OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.

Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.

Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.

Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).

Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.

Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.

Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.

Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.

OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.

Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.

avatar Furious Angel | 

Y’a quand même encore de gros soucis. Sur la vidéo de la femme qui marche à Tokyo, sa jambe droite devient tranquillement sa jambe gauche…

avatar Vanton | 

@Furious Angel

Le truc c’est qu’avec le peu de temps qu’on passe sur une vidéo sur les réseaux sociaux on passe facilement à côté de ces défauts.

avatar Scooby-Doo | 

@Vanton,

« Le truc c’est qu’avec le peu de temps qu’on passe sur une vidéo sur les réseaux sociaux on passe facilement à côté de ces défauts. »

Le problème que vous soulevez peut se résumer à ceci :

Les réseaux sociaux !

😁

Si vous croyez que Twitter/X, Facebook et les autres ont attendu Sora pour raconter vraiment n'importe quoi, je me demande sur quelle planète vous résidiez ces dix dernières années !

🙃

D'autres courtes vidéos sont disponibles ici notamment :

https://cdn.openai.com/sora/videos/wooly-mammoth.mp4

https://twitter.com/i/status/1758192957386342435

https://twitter.com/i/status/1720064304374792615

https://twitter.com/i/status/1758308160488566925

Misère, encore Twitter !!!

J'aime bien les mammouths et l'assiette avec les œufs sur le plat ! Miam !

C'est dingue la nourriture virtuelle, excellent pour faire un régime sans se priver de lécher l'écran…

😋

avatar pocketalex | 

oui

mais avec de tels outils, le "n'importe quoi" va devenir la norme, et la vérité, une goutte d'eau dans un océan de mensonges

Regardez le résultat des émeutes de l'année dernière, c'est grace à une vidéo que les plombs ont pété. si les plombs ne pètent pas tous les jours, c'est parceque dans la vie réelle, dans la vérité, ce genre de drame n'arrive pas. On a donc pas une vidéo comme ça tous les quatre matins

Demain, on aura des vidéos explosives tous les 4 matins. moi je dis... ça craint

avatar Oliviou | 

@Furious Angel

Oui. Mais comparé à ce qui se faisait il y a un an, c’est absolument fou. Il y a un an, c’était simplement inimaginable. Si on regarde les vidéos en cherchant ce qui ne va pas, bien sûr qu’on trouvera. Mais pour certaines d’entre elles, si on regarde sans savoir, c’est déjà hyper convaincant et on peut se laisser avoir sans problème.
Plus personne ne paiera une équipe pour aller filmer un plan aérien au drone, par exemple.
Des armées de spécialistes des SFX risquent de se retrouver au chômage dès cette année, pour les jeux vidéo ou les films.
Les conséquences sont innombrables, comme dans tous les autres domaines où l’AI.

avatar Furious Angel | 

@Oliviou

Ah mais tout à fait. Mais c’est marrant que ces défauts (comme l’incapacité à comprendre les mains) subsistent… pour le moment.

Je pense que le problème est que les modèles ingurgitent des vidéos sans qu’on leur file des connaissance simples sur le fonctionnement d’un être vivant.

avatar YosraF | 

@Furious Angel

Le default des mains a bien été corrigé chez midjourney. C’est pas souvent qu’on le voit désormais

avatar YosraF | 

@Oliviou

Il y a un an ? Non comparé à ceux qui faisaient de la vidéo il y a encore 2 jours. C’est genre comparé un vieux tel Nokia et l’iPhone a sa sortie 😅

avatar Seb42 | 

@Oliviou

T’inquiète il n’y a pas qu’eux, c’est d’ailleurs une goutte d’eau dans le dérèglement économique et humain que l’IA génère …
Au final à quoi / qui servent ces possibilités ? Quel est l’intérêt ?
Sûrement passer moins de temps sur les effets spéciaux 👍 ça représente une infime partie de la population et c’était un métier à part entière.
Par contre sur le fait de ne plus pouvoir croire en la moindre vidéo qui nous sera présentée ça oui c’est certain, c’est déjà le cas des photos.
Et bien sûr on viendra de douter d’une vidéo d’un JT pour dire que c’est du trucage mais on partagera à foison les propagandes et mensonges des complotistes ou autres pays totalitaire.

avatar zoubi2 | 

@Seb42

"Par contre sur le fait de ne plus pouvoir croire en la moindre vidéo qui nous sera présentée ça oui c’est certain, c’est déjà le cas des photos.
Et bien sûr on viendra de douter d’une vidéo d’un JT pour dire que c’est du trucage mais on partagera à foison les propagandes et mensonges des complotistes ou autres pays totalitaire."

Idem pareil. Je crains le pire...

avatar Florian Innocente | 
C'est ce que je me disais, le drone c'était devenu la solution pratique et pas chère pour obtenir des plans autrefois compliqués à faire. Demain plus besoin de drones, à part pour les événements live.
avatar Ingmar97432 | 

@innocente

Oui mais les drones filmaient la plupart du temps des choses ou paysages réels. Là tout est fictif.

avatar Florian Innocente | 

@Ingmar97432

Oui mais si tu lui demandes de générer un survol en drone de Central Park ou du Colisée tu as moyen de faire « vrai » avec du faux.

avatar Scooby-Doo | 

@Florian Innocente,

« Oui mais si tu lui demandes de générer un survol en drone de Central Park ou du Colisée tu as moyen de faire « vrai » avec du faux.b»

Je crains que le dataset ne couvre toute la planète y compris Central Park et le Colisée il me semble !

Si vous pouvez générer une vidéo sous n'importe quel angle, c'est parce qu'il y a eu agrégation d'images et de vidéos géolocalisées puis création d'un modèle global 3D.

Cela n'a “quasiment” rien coûté en calculs puisque c'était déjà fait pour un autre projet !

Mais quel est ce projet mystère !!!

😁

Autre exemple :

https://www.frandroid.com/marques/nvidia/912659_comment-nvidia-transforme-une-simple-image-en-rendu-3d-anime-grace-a-lia-2

avatar pocketalex | 

Le packshot produit "pas cher" est déja majoritairement digital/AI aujourd'hui, on ne fait plus de set up déco pour shooter son parfum, son whisky ou son déodorant.

C'est autant de petits studios qui n'ont plus de taf, les gros studios qui se choppent les shooting exigeants n'ont pas encore subit la vague, mais pour combien de temps encore ?

J'ai à gérer des créations visuelles mettant en scène les produits pour mes clients, et pour la cosmétique, on est en train de tout basculer en 3D/IA/digital. Plus de shooting. Finito. Pour l'horlogerie, on reste encore à chooter car l'IA n'est pas capable d'intégrer les packshot produit dans des décors et tout bien faire l'intégration, les reflets, les lumières...
Mais ça arrivera un de ces 4

Les pertes d'emploi liées à l'IA vont être massive

Rien que mon métier (DA/Motion Design), c'est de la créativité, et de l'artisanat. Déja la créativité, l'IA se débrouille souvent pas trop mal, mais bon,on va dire que l'humain reste supérieur, mais l'artisanat, le compositing, le motion design, ce n'est que de l'utilisation d'outil, et le suivi de différentes méthodes, pour arriver au résultat voulu.
Et ça, si une IA suivait mon taf et apprenait, en pas longtemps elle saurait faire tout bien.
Il n'y aurait qu'a dicter ce qu'on veut, et elle piloterait After Effect pour sortir le rendu, elle ferait pas moins bien qu'un bon motion, surtout si elle a observé une centaines des meilleurs gars travailler

Et encore je dis ça, bientôt le génératif sera tellement puissant qu'on aura même plus à reproduire les process métiers classique pour sortir une image composée, on l'aura direct, imaginée.

avatar Scooby-Doo | 

@Furious Angel,

Cela ressemble à une version alpha comme j'en ai eu à tester par le passé.

Pas de quoi avoir des vapeurs !

😁

avatar YosraF | 

INCROYABLE ! j’ai testé une dizaine de texto 2 vidéo ces derniers mois. Ceux sont des startup qui ont levé des millions d’euros et le résultat est très très loin d’open AI.
j’ai pas lu le papier mais vu les defaults cités, ils ont du créer de la données synthétique en 3D. Donc en corrigeant et améliorant le dataset ils ont de la progression. Mais si on compare à Dall-e 1 et les améliorations en moins de 2 ans… Sora, semble plus que prometteur. On arrive dans une nouvelle ère du cinéma et du montage vidéo.
OpenAI est bien décidé à rester numéro 1.

avatar PtitXav | 

Le chariot élévateur ne rebondit pas : il change de direction sans tourner quand il arrive sur l’humain.

avatar hartgers | 

Il roule sur les matériaux de construction comme si c'était le sol aussi

avatar noooty | 

@PtitXav

Et en plus, il lui roule dessus… 😱🤪
Heureusement que le mec n’a pas eu peur, sinon il ne serait plus vivant 🤭🤭🤭

avatar bonnepoire | 

C'est pas parfait mais ça reste globalement impressionnant.

avatar Scooby-Doo | 

@bonnepoire,

« C'est pas parfait mais ça reste globalement impressionnant. »

Venant de vous et de votre esprit critique reconnu sur ce forum, je comprends cela comme un compliment !

👌

avatar Glop0606 | 

Entre les puces directement intégrées dans le cerveau, les casques de VR et l'IA,... j'ai toujours plus l'impression qu'on se dirige vers la Matrix. Vu la vitesse où ça va, cette techno couplée à la VR va faire des ravages dans la dissonance cognitive.

avatar Seb42 | 

@Glop0606

Matrix ou terminator en tous cas l’un comme l’autre ça fait pas rêver.
Mais ce qui est le plus déprimant c’est de voir tout ceux ébahis par l’IA, en voyant un outil génial, innovant, futuriste… 😞

avatar Crunch Crunch | 

@Seb42

Meme avis que toi !
Assez dingue que les gens ne voies pas la fin de l’humanité, FLAGRANTE, avec ces IA générative !

C’est l’humain puissance 10000000000 qui est en train d’être inventé ! Nous sommes en train de créer notre plus grand concurrent.

Comment faire ?

avatar v1nce29 | 

Rien.
Sinon espérer qu'il nous remplace rapidement. pas envie d'attendre la retraite à 70 ans.

avatar pocketalex | 

"Crunch Crunch"

Faire 8 gamins par famille, comme les africains. C'est ça l'avenir, des armées d'affamés dans un monde ou plus rien ne poussera, ça va être génial

avatar Gwynpl@ine | 

Justement, ce qu’il me reste, c’est le rêve !

avatar fleeBubl | 

@Seb42

Matrix ou terminator en tous cas

faut reparler de robocop : le truc qui n’est pas vraiment un robot, puisqu’il ne reste de l’homme qu’un cerveau sans son corps devenu fantôme.

Donc, cette fausse preuve par l’absurde, qui consisterait à mettre au rebut les robots policiers qui faisait peur aux passants de wall street : c’est de l’auto dérision à propos du trading à haute vitesse, ou bien !?

avatar Scooby-Doo | 

@Glop0606,

Matrix est déjà derrière nous !

Cela fait depuis quelques années que nous sommes entrés collectivement dans la matrice !

😁

avatar BeePotato | 

@ Glop0606 : « j'ai toujours plus l'impression qu'on se dirige vers la Matrix. »

C’est bien le cas : dans la première vidéo, on a the woman in the red dress, édition 2024. 😉

avatar misterbrown | 

@Glop0606

Oui.
C’est déjà le cas. Les réseaux sociaux et les Fakes News font déjà des ravages chez les dissonants cognitifs.
Avec des images ça va juste les réconforter.

avatar Urubu | 

@misterbrown

Les antidépresseurs et les News tout court suffisent.

avatar 7X | 

Je nous vois plus aller vers Wall-E : juchés sur une montagne de déchets, obèses et incapables de soulever plus lourd qu'un verre de soda.

avatar R-APPLE-R | 

Est-ce que tu Sora faire la différence 😈

avatar John McClane | 

@R-APPLE-R

👏👏👏

avatar R-APPLE-R | 
avatar Scooby-Doo | 

@R-APPLE-R,

Est-ce que tu Sora que GPT de rire !

😁

avatar abalem | 

@Scooby-Doo

Ça marche moins bien la deuxième fois 🤷‍♂️

avatar Ingmar97432 | 

@R-APPLE-R

Sora ne, vois-tu rien venir???

avatar pocketalex | 

excellent aussi 👍🏻

avatar fleeBubl | 

@R-APPLE-R

Qui Sora Sora,
That ever will be will be

avatar R-APPLE-R | 

@fleeBubl

Qui Sora ? C’est Soraya 😈

avatar l3chvck | 

Toutes les boites qui font des effets spéciaux pour le cinema vont avoir chaud aux fesses

avatar Scooby-Doo | 

@l3chvck,

« Toutes les boites qui font des effets spéciaux pour le cinema vont avoir chaud aux fesses »

Cet outil est destiné à Hollywood et autres lieux de productions audiovisuelles il me semble !

Effectivement, le secteur des effets spéciaux risque d'être bouleversé entre autres, mais pas que !

😁

avatar misterbrown | 

@l3chvck

Non. Elles sont à la pointe, utilisent déjà des outils proches pour la création.
Elles
S’adapteront. Ce sont elles qui vont au mieux utiliser ces outils.

avatar fleeBubl | 

@l3chvck

Qui Sora dire si Sora utilise une caméra multiplan,
et quel plan modifier

avatar pocketalex | 

Je ne suis pas sur

On parle d'IA générative, c'est un excellent outil pour qui part d'une feuille blanche et n'a pas d'attente très précise.

En photo comme en vidéo, l'IA générative est une roulette qui donne un chiffre différent à chaque lancement, et on juge au résultat, c'est bien, pas bien, ce qu'on voulait, ou pas ce qu'on voulait

Les studios photo ou les studio vfx pour la vidéo font exactement l'inverse : ils répondent à une problématique précise, qiu ne part pas d'une feuille blanche mais d'une intention qui générallement a été discutée, travaillée et retravaillée pour qu'au passage en prod, on soit efficace et rigoureux jusque dans les moindes détails, détails que l'on pourra ajuster au besoin pour arriver exactement au produit voulu, ou du moins à celui que le client veut.
... sans tout refaire de zéro comme le font les IA génératives (si on pompte deux fois la meme chose, on deux résultats différents, si on corrige une partie d'un visuel, on aura un résulat tout aussi hasardeux que la création même du visuel l'était, et enfin, si on fait une série de visuel, il va être compliqué de garder une cohérence avec des images générées en IA, là où un shooting studio conservera une continuité décor, lumière, ambiance sur différenes photos d'un shoot)

Bref l'IA a ses avantages, mais aussi ses (importantes) limites. A voir comment tout ça va évoluer

avatar Tech | 

Le pire est à venir.

avatar Scooby-Doo | 

@Tech,

Le pire est déjà arrivé !

👌

Pages

CONNEXION UTILISATEUR