Avec Sora, OpenAI fabrique maintenant des vidéos qui peuvent tromper
OpenAI lance Sora, un modèle d'IA capable de produire des vidéos et des animations à partir de requêtes textuelles. Les premières démonstrations ne sont pas sans défauts, mais déjà impressionnantes.
Après le texte avec ChatGPT, après les images avec Dall-E, OpenAI passe à la vidéo avec Sora. Un outil capable de transformer des requêtes de texte (les "prompts") en séquences vidéos qui peuvent durer jusqu'à une minute. Sora sait composer des scènes contenant plusieurs sujets (humains, animaux, personnages de fiction) ou objets dans un environnement complexe. Sora peut démarrer son travail à partir des commandes textuelles de l'utilisateur, mais aussi partir d'une image fixe qui deviendra un petit film, ou imaginer ce qu'il y a avant ou après un extrait de vidéo déjà existant.
Pour une même scène, le sujet peut être modifié à loisir pour lui donner un autre aspect, ou alors c'est le paysage autour de lui que l'on changera. On fera rouler une voiture à l'identique, tantôt sur une route de montagne, tantôt dans une ville… ou dans un fond marin.
Autre élément intéressant, la caméra n'est pas fixe, elle peut tourner autour du sujet. Celui-ci conservera ses caractéristiques et l'environnement sera alors visible sous de nouveaux angles. Il ne s'agit pas de produire uniquement des plans figés, mais de simuler le monde réel (même si l'on peut demander à Sora de générer des vidéos façon dessin animé).
Le modèle de Sora est conçu pour comprendre les objets et les interactions entre eux. Comme cet homme qui mord dans un hamburger dont on voit ensuite une partie manquante, celle qui a été avalée et dont l'état est maintenu dans l'animation.
Les nombreux exemples de vidéos produites par Sora sont, pour la plupart, assez étonnants. Il y a déjà moyen de faire illusion. D'autres trahissent leur origine artificielle lorsqu'on les regarde de plus près ou en image par image. Un degré d'attention qui n'existe guère sur les réseaux.
Un mouvement ou un rendu peuvent avoir une allure qui rappellera les cinématiques des jeux vidéo plutôt que de véritables scènes filmées ou ces bugs qu'ont parfois des moteurs 3D. Une scène représentant un chantier voit le gilet de sécurité d'un personnage changer brutalement de couleur ou un chariot élévateur avancer vers un ouvrier, le toucher et repartir brusquement dans une autre direction.
Ailleurs, ce sont des pattes d'animaux qui semblent déformées (celles d'un dalmatien qui saute d'une fenêtre à l'autre) ou dont le mouvement manque de naturel. De la même manière que cela se passait avec les mains des humains dans les premières images de Dall-E ou Midjourney.
OpenAI liste d'autres faiblesses dans son modèle avec un pot-pourri de quelques vidéos ratées. Sora peut avoir du mal avec la physique : un verre qui tombe ne se brisera pas ; la gauche et la droite peuvent lui poser des problèmes (on voit une démo avec un homme qui avance sur un tapis roulant, mais à l'envers ; une morsure dans un aliment n'apparaîtra pas toujours ; la caméra peut avoir de la peine à suivre correctement une trajectoire.
Cette première version semi-publique de Sora est entre les mains de testeurs et de spécialistes qui vont en évaluer les possibilités… et les risques. Comme avec les précédentes images générées par des IA, ce développement ouvre de nouvelles opportunités de créer une autre réalité trompeuse. OpenAI prévoit des garde-fous à son usage, comme de rejeter certains types de requêtes et d'identifier les vidéos ainsi produites.
Y’a quand même encore de gros soucis. Sur la vidéo de la femme qui marche à Tokyo, sa jambe droite devient tranquillement sa jambe gauche…
@Furious Angel
Le truc c’est qu’avec le peu de temps qu’on passe sur une vidéo sur les réseaux sociaux on passe facilement à côté de ces défauts.
@Vanton,
« Le truc c’est qu’avec le peu de temps qu’on passe sur une vidéo sur les réseaux sociaux on passe facilement à côté de ces défauts. »
Le problème que vous soulevez peut se résumer à ceci :
Les réseaux sociaux !
😁
Si vous croyez que Twitter/X, Facebook et les autres ont attendu Sora pour raconter vraiment n'importe quoi, je me demande sur quelle planète vous résidiez ces dix dernières années !
🙃
D'autres courtes vidéos sont disponibles ici notamment :
https://cdn.openai.com/sora/videos/wooly-mammoth.mp4
https://twitter.com/i/status/1758192957386342435
https://twitter.com/i/status/1720064304374792615
https://twitter.com/i/status/1758308160488566925
Misère, encore Twitter !!!
J'aime bien les mammouths et l'assiette avec les œufs sur le plat ! Miam !
C'est dingue la nourriture virtuelle, excellent pour faire un régime sans se priver de lécher l'écran…
😋
oui
mais avec de tels outils, le "n'importe quoi" va devenir la norme, et la vérité, une goutte d'eau dans un océan de mensonges
Regardez le résultat des émeutes de l'année dernière, c'est grace à une vidéo que les plombs ont pété. si les plombs ne pètent pas tous les jours, c'est parceque dans la vie réelle, dans la vérité, ce genre de drame n'arrive pas. On a donc pas une vidéo comme ça tous les quatre matins
Demain, on aura des vidéos explosives tous les 4 matins. moi je dis... ça craint
@Furious Angel
Oui. Mais comparé à ce qui se faisait il y a un an, c’est absolument fou. Il y a un an, c’était simplement inimaginable. Si on regarde les vidéos en cherchant ce qui ne va pas, bien sûr qu’on trouvera. Mais pour certaines d’entre elles, si on regarde sans savoir, c’est déjà hyper convaincant et on peut se laisser avoir sans problème.
Plus personne ne paiera une équipe pour aller filmer un plan aérien au drone, par exemple.
Des armées de spécialistes des SFX risquent de se retrouver au chômage dès cette année, pour les jeux vidéo ou les films.
Les conséquences sont innombrables, comme dans tous les autres domaines où l’AI.
@Oliviou
Ah mais tout à fait. Mais c’est marrant que ces défauts (comme l’incapacité à comprendre les mains) subsistent… pour le moment.
Je pense que le problème est que les modèles ingurgitent des vidéos sans qu’on leur file des connaissance simples sur le fonctionnement d’un être vivant.
@Furious Angel
Le default des mains a bien été corrigé chez midjourney. C’est pas souvent qu’on le voit désormais
@Oliviou
Il y a un an ? Non comparé à ceux qui faisaient de la vidéo il y a encore 2 jours. C’est genre comparé un vieux tel Nokia et l’iPhone a sa sortie 😅
@Oliviou
T’inquiète il n’y a pas qu’eux, c’est d’ailleurs une goutte d’eau dans le dérèglement économique et humain que l’IA génère …
Au final à quoi / qui servent ces possibilités ? Quel est l’intérêt ?
Sûrement passer moins de temps sur les effets spéciaux 👍 ça représente une infime partie de la population et c’était un métier à part entière.
Par contre sur le fait de ne plus pouvoir croire en la moindre vidéo qui nous sera présentée ça oui c’est certain, c’est déjà le cas des photos.
Et bien sûr on viendra de douter d’une vidéo d’un JT pour dire que c’est du trucage mais on partagera à foison les propagandes et mensonges des complotistes ou autres pays totalitaire.
@Seb42
"Par contre sur le fait de ne plus pouvoir croire en la moindre vidéo qui nous sera présentée ça oui c’est certain, c’est déjà le cas des photos.
Et bien sûr on viendra de douter d’une vidéo d’un JT pour dire que c’est du trucage mais on partagera à foison les propagandes et mensonges des complotistes ou autres pays totalitaire."
Idem pareil. Je crains le pire...
@innocente
Oui mais les drones filmaient la plupart du temps des choses ou paysages réels. Là tout est fictif.
@Ingmar97432
Oui mais si tu lui demandes de générer un survol en drone de Central Park ou du Colisée tu as moyen de faire « vrai » avec du faux.
@Florian Innocente,
« Oui mais si tu lui demandes de générer un survol en drone de Central Park ou du Colisée tu as moyen de faire « vrai » avec du faux.b»
Je crains que le dataset ne couvre toute la planète y compris Central Park et le Colisée il me semble !
Si vous pouvez générer une vidéo sous n'importe quel angle, c'est parce qu'il y a eu agrégation d'images et de vidéos géolocalisées puis création d'un modèle global 3D.
Cela n'a “quasiment” rien coûté en calculs puisque c'était déjà fait pour un autre projet !
Mais quel est ce projet mystère !!!
😁
Autre exemple :
https://www.frandroid.com/marques/nvidia/912659_comment-nvidia-transforme-une-simple-image-en-rendu-3d-anime-grace-a-lia-2
Le packshot produit "pas cher" est déja majoritairement digital/AI aujourd'hui, on ne fait plus de set up déco pour shooter son parfum, son whisky ou son déodorant.
C'est autant de petits studios qui n'ont plus de taf, les gros studios qui se choppent les shooting exigeants n'ont pas encore subit la vague, mais pour combien de temps encore ?
J'ai à gérer des créations visuelles mettant en scène les produits pour mes clients, et pour la cosmétique, on est en train de tout basculer en 3D/IA/digital. Plus de shooting. Finito. Pour l'horlogerie, on reste encore à chooter car l'IA n'est pas capable d'intégrer les packshot produit dans des décors et tout bien faire l'intégration, les reflets, les lumières...
Mais ça arrivera un de ces 4
Les pertes d'emploi liées à l'IA vont être massive
Rien que mon métier (DA/Motion Design), c'est de la créativité, et de l'artisanat. Déja la créativité, l'IA se débrouille souvent pas trop mal, mais bon,on va dire que l'humain reste supérieur, mais l'artisanat, le compositing, le motion design, ce n'est que de l'utilisation d'outil, et le suivi de différentes méthodes, pour arriver au résultat voulu.
Et ça, si une IA suivait mon taf et apprenait, en pas longtemps elle saurait faire tout bien.
Il n'y aurait qu'a dicter ce qu'on veut, et elle piloterait After Effect pour sortir le rendu, elle ferait pas moins bien qu'un bon motion, surtout si elle a observé une centaines des meilleurs gars travailler
Et encore je dis ça, bientôt le génératif sera tellement puissant qu'on aura même plus à reproduire les process métiers classique pour sortir une image composée, on l'aura direct, imaginée.
@Furious Angel,
Cela ressemble à une version alpha comme j'en ai eu à tester par le passé.
Pas de quoi avoir des vapeurs !
😁
INCROYABLE ! j’ai testé une dizaine de texto 2 vidéo ces derniers mois. Ceux sont des startup qui ont levé des millions d’euros et le résultat est très très loin d’open AI.
j’ai pas lu le papier mais vu les defaults cités, ils ont du créer de la données synthétique en 3D. Donc en corrigeant et améliorant le dataset ils ont de la progression. Mais si on compare à Dall-e 1 et les améliorations en moins de 2 ans… Sora, semble plus que prometteur. On arrive dans une nouvelle ère du cinéma et du montage vidéo.
OpenAI est bien décidé à rester numéro 1.
Le chariot élévateur ne rebondit pas : il change de direction sans tourner quand il arrive sur l’humain.
Il roule sur les matériaux de construction comme si c'était le sol aussi
@PtitXav
Et en plus, il lui roule dessus… 😱🤪
Heureusement que le mec n’a pas eu peur, sinon il ne serait plus vivant 🤭🤭🤭
C'est pas parfait mais ça reste globalement impressionnant.
@bonnepoire,
« C'est pas parfait mais ça reste globalement impressionnant. »
Venant de vous et de votre esprit critique reconnu sur ce forum, je comprends cela comme un compliment !
👌
Entre les puces directement intégrées dans le cerveau, les casques de VR et l'IA,... j'ai toujours plus l'impression qu'on se dirige vers la Matrix. Vu la vitesse où ça va, cette techno couplée à la VR va faire des ravages dans la dissonance cognitive.
@Glop0606
Matrix ou terminator en tous cas l’un comme l’autre ça fait pas rêver.
Mais ce qui est le plus déprimant c’est de voir tout ceux ébahis par l’IA, en voyant un outil génial, innovant, futuriste… 😞
@Seb42
Meme avis que toi !
Assez dingue que les gens ne voies pas la fin de l’humanité, FLAGRANTE, avec ces IA générative !
C’est l’humain puissance 10000000000 qui est en train d’être inventé ! Nous sommes en train de créer notre plus grand concurrent.
Comment faire ?
Rien.
Sinon espérer qu'il nous remplace rapidement. pas envie d'attendre la retraite à 70 ans.
"Crunch Crunch"
Faire 8 gamins par famille, comme les africains. C'est ça l'avenir, des armées d'affamés dans un monde ou plus rien ne poussera, ça va être génial
Justement, ce qu’il me reste, c’est le rêve !
@Seb42
Matrix ou terminator en tous cas
…
faut reparler de robocop : le truc qui n’est pas vraiment un robot, puisqu’il ne reste de l’homme qu’un cerveau sans son corps devenu fantôme.
Donc, cette fausse preuve par l’absurde, qui consisterait à mettre au rebut les robots policiers qui faisait peur aux passants de wall street : c’est de l’auto dérision à propos du trading à haute vitesse, ou bien !?
@Glop0606,
Matrix est déjà derrière nous !
Cela fait depuis quelques années que nous sommes entrés collectivement dans la matrice !
😁
@ Glop0606 : « j'ai toujours plus l'impression qu'on se dirige vers la Matrix. »
C’est bien le cas : dans la première vidéo, on a the woman in the red dress, édition 2024. 😉
@Glop0606
Oui.
C’est déjà le cas. Les réseaux sociaux et les Fakes News font déjà des ravages chez les dissonants cognitifs.
Avec des images ça va juste les réconforter.
@misterbrown
Les antidépresseurs et les News tout court suffisent.
Je nous vois plus aller vers Wall-E : juchés sur une montagne de déchets, obèses et incapables de soulever plus lourd qu'un verre de soda.
Est-ce que tu Sora faire la différence 😈
@R-APPLE-R
👏👏👏
@John McClane
https://youtu.be/SYCIpBtaON0?feature=shared 😈
@R-APPLE-R,
Est-ce que tu Sora que GPT de rire !
😁
@Scooby-Doo
Ça marche moins bien la deuxième fois 🤷♂️
@R-APPLE-R
Sora ne, vois-tu rien venir???
excellent aussi 👍🏻
@R-APPLE-R
Qui Sora Sora,
That ever will be will be
@fleeBubl
Qui Sora ? C’est Soraya 😈
Toutes les boites qui font des effets spéciaux pour le cinema vont avoir chaud aux fesses
@l3chvck,
« Toutes les boites qui font des effets spéciaux pour le cinema vont avoir chaud aux fesses »
Cet outil est destiné à Hollywood et autres lieux de productions audiovisuelles il me semble !
Effectivement, le secteur des effets spéciaux risque d'être bouleversé entre autres, mais pas que !
😁
@l3chvck
Non. Elles sont à la pointe, utilisent déjà des outils proches pour la création.
Elles
S’adapteront. Ce sont elles qui vont au mieux utiliser ces outils.
@l3chvck
Qui Sora dire si Sora utilise une caméra multiplan,
et quel plan modifier
Je ne suis pas sur
On parle d'IA générative, c'est un excellent outil pour qui part d'une feuille blanche et n'a pas d'attente très précise.
En photo comme en vidéo, l'IA générative est une roulette qui donne un chiffre différent à chaque lancement, et on juge au résultat, c'est bien, pas bien, ce qu'on voulait, ou pas ce qu'on voulait
Les studios photo ou les studio vfx pour la vidéo font exactement l'inverse : ils répondent à une problématique précise, qiu ne part pas d'une feuille blanche mais d'une intention qui générallement a été discutée, travaillée et retravaillée pour qu'au passage en prod, on soit efficace et rigoureux jusque dans les moindes détails, détails que l'on pourra ajuster au besoin pour arriver exactement au produit voulu, ou du moins à celui que le client veut.
... sans tout refaire de zéro comme le font les IA génératives (si on pompte deux fois la meme chose, on deux résultats différents, si on corrige une partie d'un visuel, on aura un résulat tout aussi hasardeux que la création même du visuel l'était, et enfin, si on fait une série de visuel, il va être compliqué de garder une cohérence avec des images générées en IA, là où un shooting studio conservera une continuité décor, lumière, ambiance sur différenes photos d'un shoot)
Bref l'IA a ses avantages, mais aussi ses (importantes) limites. A voir comment tout ça va évoluer
Le pire est à venir.
@Tech,
Le pire est déjà arrivé !
👌
Pages