Lumiere : la nouvelle IA de Google qui génère des vidéos réalistes

Félix Cattafesta |

Si la génération d’images à partir de texte progresse à vitesse grand V, la génération de vidéos n’est pas en reste. Google a récemment présenté Lumiere, un modèle permettant de créer de toute pièce des vidéos de 5 secondes au format 1024×1024. Un site présentant ce projet de recherche a été mis en ligne, en plus d’une petite vidéo de démo.

La technologie de Google repose sur un modèle d’IA baptisée Space-Time-U-Net (STUNet) pouvant comprendre où se situent les éléments d’une vidéo et comment ceux-ci se déplacent et changent. Elle peut donc générer une première image avant de créer des mouvements en se basant sur les lieux approximatifs où se dirigent les éléments. Sa spécificité est de pouvoir générer une vidéo complète (du début à la fin) en une seule fois.

Génération d’une vidéo à partir de texte.

Bien que l’aspect artificiel reste présent, le résultat est globalement bluffant. La technologie peut également servir à animer une image préexistante, mais aussi à créer des vidéos en se basant sur le style d’une image. On peut modifier le style de certains éléments d’une vidéo, ou encore « remplir » une partie vide. Les exemples présentés se concentrent sur des animaux, plus facilement crédibles en évitant la vallée de l’étrange.

Génération de vidéo à partir du style d’une image avec Lumière. Image : Google.

Les différents exemples montrent un outil qui pourra être utilisable dans différents secteurs, par exemple pour générer des effets spéciaux. Google s’inquiète logiquement des risques de proposer un tel outil publiquement, notant qu’il « existe un risque d'utilisation abusive pour créer des contenus faux ou nuisibles » avec la technologie.

In-Painting d’une vidéo avec Lumière. Image : Google.

Ce type de technologie n’est pas nouvelle : Meta dispose depuis 2022 d’un générateur appelé « Make-A-Video », tandis que certaines plateformes créent des présentations pour entreprises avec de telles technologies. La sortie en novembre dernier de Stable Video Diffusion avait fait du bruit dans le secteur avec ses résultats cohérents, mais le modèle de Google va encore plus loin : il génère 80 images, contre seulement 25 pour son concurrent.

Stylisation d’une vidéo avec Lumière. Image : Google.

Google ne s’est pas particulièrement illustré dans le domaine de la génération d’images jusqu'à présent. Son IA Imagen devrait bientôt arriver sur Bard, et les projecteurs sont pour le moment plutôt pointés sur Midjourney ou l’impressionnant DALL-E 3. Lumiere n’est pas disponible en test pour le moment, mais on peut imaginer que la technologie sera intégrée d’une manière ou d’une autre dans un service de Google.

avatar cosmoboy34 | 

@pat3

Je vois pas trop en quoi c’est exactement ce que fait un député actuellement. Et si tu lis ce que j’ai écrit plus haut je disais qu’il ne serait pas nécessaire de donner tous les pouvoir à une ia mais de s’en servir comme d’un outil.

Un exemple : la plateforme thesee dédiée aux dépôts de plaintes concernant des infractions sur internet. C’est géré par une ia qui fait le lien entre touts les affaires similaires. Ça permet une plus grande efficacité et une résolution des plaintes accrue.

Je vois pas en quoi utiliser une ia pour élaborer et régler des problèmes de sociétés au travers de projets de lois en prenant en compte un nombre exponentiel de paramètres que ne pourrait jamais faire un humain, serait une dictature.

avatar pat3 | 

@cosmoboy34

"avec une maîtrise complète des tenants aboutissants et conséquences"
Cette maîtrise complète, c’est l’enfer pavé de bonnes intentions. Et n’oublions pas que l’IA est programmée par des humains, avec des biais d’humains (voir police prédictive aux USA). Une fois programmée et installée, qui va contrôler, modifier ou arrêter un IA preneuse de décisions ?

avatar cosmoboy34 | 

@pat3

Une fois de plus ( comme je l’ai déjà indiqué plusieurs fois) je vois plutôt ça comme un outil supplémentaire pas comme un remplaçant. Un outil qui permettrait d’aborder les sujet de manière globale avec des projets de lois plus complet qui prendraient en compte bien plus de paramètres et qui seraient ensuite débattues et adoptes eux par des humains.

Avec le nombre de normes et de lois d’un niveau exponentiel aujourd’hui plus personne n’est capable de toutes les intégrer toutes les connaître et ainsi on arrive souvent à beaucoup de lois contradictoires.

Avoir un ia qui gère les possibles conflits de lois et permet une simplification ne serait pas de trop.

avatar pat3 | 

@cosmoboy34
"Avoir un ia qui gère les possibles conflits de lois et permet une simplification ne serait pas de trop."

Formulé comme ça je te comprends mieux et je suis assez d’accord.

avatar cosmoboy34 | 

@pat3

Pas le plus simple d’évoquer des sujets aussi complexes à l’écrit

avatar v1nce29 | 

En fait l'humain peut à nouveau battre la machine au jeu de go.
Mais c'est uniquement parce qu'une autre machine a identifié une faille suffisamment "simple" pour être utilisée par les humains (enfin une dizaine dans le monde) contre les machines.

avatar bozzo | 

@cosmoboy34

Oui d’accord, mais la y’a quand même quelque chose de clairement nouveau : une étape a été franchie.
Maintenant n’importe qui ou presque peut générer des vidéos quasi indiscernables de la réalité. Pour exemple cette video sortie il y a quelques jours qui imite à la perfection le journal de TF1 et qui fait de la pub pour une appli qui est une arnaque.
Je suis sur que plein de gens se sont fait avoir.
Et comme écrit Seb42, compte tenu de la tendance naturelle de beaucoup de nos semblables au complotisme, et puis de leur manque abyssal de culture qui leur permettrait de faire le tri, ça risque de partir un peu dans tous les sens.

avatar appleadict | 

@powergeek

cf le film simone avec Al Pacino (https://www.allocine.fr/film/fichefilm_gen_cfilm=28981.html)

avatar pocketalex | 

Merci MacG d'avoir mis en avant cette démo, elle est carrément bluffante

Et c'est comme le Vision Pro, on est sur un 1er jet qui ne peux que préfigurer de belles évolutions, et non sur un truc fini qui ne bougera jamais :) (petit rappel pour les aigris et les esprits un peu étroits)

avatar Hades1988 | 

Quand je vois comment se déroule la réalisation d'un film (au niveau vfx/post prod), ou série tv animée.... Nous les pros on passe énormément de temps a corriger, fixer des petites choses que la grande majorité de l'audience ne verra jamais. Google nous montre des vidéos passablement dégueulasses et les commentaires sont fous! Quelle qualité! C'est incroyable! XD

avatar powergeek | 

@Hades1988

Je te comprends mais ce n'est que le début. On s'extasie plus devant la prouesse technique que la qualité.

avatar pocketalex | 

@ Hades1988

Les commentaires sont fous, et à raison. Ce que l'on voit là, cf mon commentaire plus haut, n'est absolument pas une finalité, mais le tout début d'une vague d'IA génératives vidéo qui ne va que s'améliorer dans le temps.

Pour le moment, c'est petit, pas très beau, surement limité dans les possibilités, et ne correspond pas à ce qui est possible avec un workflow traditionnel audiovisuel.

Pour le moment...

avatar Moebius13 | 

Preuve supplémentaire qu’au lieu de S’astiquer le casque, Timmy aurait dû faire comme tous les autres et investir massivement dans l’IA parce que l’avenir qu’on le veuille ou non est là, pas sur Apple Vision, l’avenir le prouvera très très vite !

avatar pocketalex | 

Je ne m'amuserais pas à critiquer la stratégie d'Apple. déja on ne sait pas ce qu'ils préparent en IA et usages permis par l'IA. Ensuite, tout simplement, je pense qu'on est des nains ignares à coté des bureaux de veille stratégique au sein d'Apple, et qu'ils sont au courant de tout ce que l'on sait bien à l'avance, qu'ils pèsent chaque techno et son potentiel, et qu'ils sont surement infiniment plus malin que toi et moi

avatar LvLup | 

@pocketalex

Apple > Nous >>> Siri 😊

avatar Sgt. Pepper | 

@Moebius13

« Lumiere n’est pas disponible en test pour le moment »

La différence est la ,
Google balance du POc, version Alpha pour les usa

Apple préfère avoir le produit en Beta pour le présenter en WWDC 🤷‍♂️

avatar Moebius13 | 

@Sgt. Pepper

Apple n’a pas les moyens de mettre en place une IA similaire actuellement pour la bonne et simple raison qu’en dehors des compétences ils n’ont tout simplement pas les infrastructures nécessaires, notamment en nombre de serveurs pour faire tourner une IA sur l’ensemble de leur devices, ou même uniquement leurs iPhone juste aux USA.

Microsoft qui a environ 50 fois plus de serveurs et qui a racheté Chat-GPT et investi chaque année des milliards en R&D et achètent près de la moitié des serveurs Nvidia produits par TSMC, doit malgré tout mettre en place des restrictions en nombre de requêtes par utilisateur, il en va de même pour Dall-E son générateur d’images via IA limité à 5 requêtes par jour il me semble.

Je rappelle qu’Apple ne s’est réveillé qu’en fin d’année et a fait l’acquisition de tous les serveurs que les lignes de productions pouvaient encore sortir, ce qui représente les miettes laissées par les autres acteurs de l’industrie, qui ont déjà bloqué les carnets de commande pour 2024.

Il est donc littéralement impossible que l’iPhone 16 et IOS 18 sortent une IA similaire à Bard ou Copilot, même le niveau d’Alexa ce serait déjà assez incroyable !

Et dans le sens inverse, si Apple avait les serveurs, non seulement ils doivent être spécifiques, et c’est Nvidia qui tient la corde, et qu’on ne me dise surtout pas qu’Apple pourrait produire les siens en ARM, Nvidia fait 80% de son CA via ses serveurs et a développé des compétences de pointe pour faire tourner des algorithmes d’IA qu’aucun concurrent ne parvient à égaler (AMD est à des années lumières), mais en plus de tout ça il faudrait qu’Apple ait les compétences en matière d’IA, et ils ne les ont pas (pour le moment).

C’était il y a 5 ans qu’il fallait mettre le paquet et Timmy il a 5 ans il a dit « On va mettre nos billes sur un casque AR, c’est ça l’avenir vous verrez ».
Donc oui va voir…..

Mais s’il y en a qui imaginent que iOS 18 ça va être la révolution de l’IA chez Apple ils risquent d’être déçus, tout au plus ils rattraperont quelques fonctions présentent sur les Pixels et les derniers Samsung, et encore pas toutes puisque certaines ont besoin d’un traitement via les serveurs de Google (et eux ont les capacités pour absorber la charge, et ils ne font qu’augmenter leurs capacités…)

avatar hartgers | 

@Moebius13 : il semblerait qu'un Mac Studio avec plein de RAM soit capable de faire tourner des modèles très gourmands en local. Clairement le chemin d'Apple avec sa mémoire unifiée (bah oui, personne d'autre ne propose de GPU avec 64Go de RAM au grand public) est loin d'être idiot pour arriver avec une proposition disruptive face à OpenAI et les autres. Et les Neural Engine/API de ML sont présentes depuis un moment sur les appareils Apple, ne l'oubliez pas.

avatar Moebius13 | 

@hartgers

Vous comparez un Mac Studio et Neutal Engine à un serveur équipés de GPU Nvidia dédiés à l’IA.

En gros vous comparez une deux chevaux et une Porsche 911 mais tout va bien 😊

avatar hartgers | 

Non, je compare une chambre froide et un réfrigérateur domestique, un 33 tonnes et un break, une cuisine industrielle et une plaque de cuisson par induction. En gros la différence, c'est que si l'un est super fortiche dans son domaine, le gros avantage de l'autre c'est que je peux en disposer assez facilement.

avatar Moebius13 | 

@hartgers

Et tu crois que tu pourras faire tourner un modèle comme Chat GPT ou Bard sur un Mac Pro avec un éventuel M3 Ultra ? Sérieusement ?

avatar hartgers | 

D'autant que visiblement le modèle d'OpenAI est très lourd et se fait dépasser par des modèles plus légers progressivement.

avatar Moebius13 | 

@hartgers

Justement, cette lourdeur sera prochainement de l’histoire ancienne avec leur projet d’amélioration GPT 4.5 Turbo dont le but est de rendre l’algorithme plus léger et plus réactif avec une base de donnée plus à jour.

C’est peut être le plus lourd mais aucun ne peut l’égaler pour le moment, Bard en est loin, vous avez des exemples ?

avatar v1nce29 | 

France Inter est l'appli de fake news la plus aboutie pour l'instant.

avatar Glop0606 | 

J'attends de tester en réel car dernièrement j'ai été surpris du résultat moyen de certaines fonctionalités IA tant vanté de Google. J'ai exprès pris un abo Google One pour tester les fonctionalités sur les photos. Alors le défloutage chez moi a ultra moyennement marché. Pas d'effet Wow. Après la fonction HDR. Non mais quel horreur! On dirait qu'ils ont poussé les curseurs saturation et dynamique à fond. En gros je trouvais les photos originales meilleures qu'avec les outils d'amélioration qui ont tendance à tout exagérés. Donc sur la vidé promo ça a l'air prometteur mais à tester en réel.

avatar Mike Mac | 

Déjà qu'avec chaque intervention de Sandrine Rousseau, je penche pour une fake vidéo comique alors qu'il parait qu'elles seraient toutes vraies... Alors le futur risque de surprendre.

L'IA vidéo pourrait-elle sauver l'égérie des écolos et donner du sens à ses propos ?

avatar Phiphi | 

C’est bien, on n’aura plus besoin de musées (ni d’artistes), de zoos (voire de nature). On mettra son Vision Pro et on pourra « vivre » sans jamais quitter son lit.
Et puis la prochaine génération d’IA nous livrera directement notre bouffe virtuelle dans le masque, avec spay odorant sous le nez, alors qu’on sera juste branché sous perfusion…

Ah non. Tout va péter, et notre espèce va s’éteindre. C’est rassurant.

🥵

avatar hartgers | 

Ce sont les créateurs de contenus stock qui doivent s'inquiéter, ainsi que tous les artistes VFX/3D dont je fais partie. Cela étant dit, ce qu'on observe, c'est que dès qu'on a un besoin très spécifique et une nécessité de détails particuliers, les prompts montrent vite leurs limites. Cela reste impressionnant et bluffant, mais quand on sortira du "chien mignon en automne" ou du "personnage féminin de manga" on verra bien ce que ça donnera ha ha
J'ai l'impression que ce qui se profile, c'est un monde de contenus à plusieurs vitesses. C'est déjà en grande partie le cas entre la "télé individuelle à bas coût" sur les réseaux sociaux type Tik Tok d'un côté, et la télé officielle de l'autre, qui elle même est une version cheap du cinéma. Les contenus sont pas forcément mieux ou moins bien d'un côté ou de l'autre, mais les moyens et les formats sont bien différents. Dans un futur proche (et c'est déjà en partie là), un autre acteur sera un générateur de contenus automatisés qui régurgitera ce que les consommateurs veulent voir. Les contenus génériques de type pranks, mauvaise série B sur Tik Tok, chutes, vidéos de cuisine, tout cela peut se faire dumper par des vidéos générées par des IA. Le contenu de qualité montera en gamme et servira les gens qui sont prêts à payer pour, et pour les plus pauvres on leur servira de la soupe automatisée. Glaçant mais fort probable...

avatar Dr. Kifelkloun | 

C'est quoi la définition de "réaliste" en 2024 ?
Un panda qui bouffe du popcorn, ou un ours en peluche qui s'éclate dans la neige ?
Parce que si on va par là, Pixar fait du cinéma réaliste depuis plus de 30 ans...

avatar vidok91 | 

Si tu oublies d’appuyer sur “Live” pour tes photos de vacances, tu les animes une fois de retour chez toi avec l’IA.

avatar perick | 

C’est très puissant vu comme ça. J’utilise dall-E via copilot pour générer des images, ça fonctionne plutôt pas mal, mais ce n’est pas très précis. L’IA est incapable d’afficher le bon nombre de personnes demandé par exemple. Donc pour les vidéos, il faut voir l’usage. Ça finira en tout cas par être très très fort et n’importe qui pourra créer facilement des images ou des vidéos pour plusieurs usages (décoration, publicité,…) ça risque de mettre quelques métiers sur la paille

avatar LvLup | 

J’ajouterai juste une chose ici, actuellement il est assez difficile pour une IA de cliquer sur des boutons d’interface. Et oui il faut généralement passer par un plugin clés de voute des logiciels et autres webapp. Ces plugins pour ceux qui les ont créés sont passés payants afin de protéger les utilisateurs et surtout contrôler le business in fine.
Comme dit plus haut, pour le moment…
Et enfin n’oublions pas que l’on vit dans un monde capitaliste, ce qui a permis un extraordinaire changement depuis 70 ans, mais dont les fondations reposent uniquement sur le profit des sociétés toutes concurrentes entre elles sans rentrer dans le détail géopolitique.
J’ai du mal à voir où on en sera dans 5 ans perso 😅

avatar oomu | 

"Et enfin n’oublions pas que l’on vit dans un monde capitaliste, ce qui a permis un extraordinaire changement depuis 70 ans, mais dont les fondations reposent uniquement sur le profit des sociétés toutes concurrentes entre elles sans rentrer dans le détail géopolitique. "

hein ?!

avatar LvLup | 

☺️

Pages

CONNEXION UTILISATEUR