Lumiere : la nouvelle IA de Google qui génère des vidéos réalistes

Félix Cattafesta |

Si la génération d’images à partir de texte progresse à vitesse grand V, la génération de vidéos n’est pas en reste. Google a récemment présenté Lumiere, un modèle permettant de créer de toute pièce des vidéos de 5 secondes au format 1024×1024. Un site présentant ce projet de recherche a été mis en ligne, en plus d’une petite vidéo de démo.

La technologie de Google repose sur un modèle d’IA baptisée Space-Time-U-Net (STUNet) pouvant comprendre où se situent les éléments d’une vidéo et comment ceux-ci se déplacent et changent. Elle peut donc générer une première image avant de créer des mouvements en se basant sur les lieux approximatifs où se dirigent les éléments. Sa spécificité est de pouvoir générer une vidéo complète (du début à la fin) en une seule fois.

Génération d’une vidéo à partir de texte.

Bien que l’aspect artificiel reste présent, le résultat est globalement bluffant. La technologie peut également servir à animer une image préexistante, mais aussi à créer des vidéos en se basant sur le style d’une image. On peut modifier le style de certains éléments d’une vidéo, ou encore « remplir » une partie vide. Les exemples présentés se concentrent sur des animaux, plus facilement crédibles en évitant la vallée de l’étrange.

Génération de vidéo à partir du style d’une image avec Lumière. Image : Google.

Les différents exemples montrent un outil qui pourra être utilisable dans différents secteurs, par exemple pour générer des effets spéciaux. Google s’inquiète logiquement des risques de proposer un tel outil publiquement, notant qu’il « existe un risque d'utilisation abusive pour créer des contenus faux ou nuisibles » avec la technologie.

In-Painting d’une vidéo avec Lumière. Image : Google.

Ce type de technologie n’est pas nouvelle : Meta dispose depuis 2022 d’un générateur appelé « Make-A-Video », tandis que certaines plateformes créent des présentations pour entreprises avec de telles technologies. La sortie en novembre dernier de Stable Video Diffusion avait fait du bruit dans le secteur avec ses résultats cohérents, mais le modèle de Google va encore plus loin : il génère 80 images, contre seulement 25 pour son concurrent.

Stylisation d’une vidéo avec Lumière. Image : Google.

Google ne s’est pas particulièrement illustré dans le domaine de la génération d’images jusqu'à présent. Son IA Imagen devrait bientôt arriver sur Bard, et les projecteurs sont pour le moment plutôt pointés sur Midjourney ou l’impressionnant DALL-E 3. Lumiere n’est pas disponible en test pour le moment, mais on peut imaginer que la technologie sera intégrée d’une manière ou d’une autre dans un service de Google.

Accédez aux commentaires de l'article