Veo, Imagen : Google améliore ses outils de générations d’images et de vidéos

Félix Cattafesta

mercredi 21 mai 2025 à 15:58 • 9

Google a dévoilé de nombreuses nouveautés liées à l’IA lors de sa grande conférence I/O, avec du neuf pour la génération d’images et de vidéos. Le modèle Imagen 4 est désormais disponible pour tous via l’app Gemini et à travers les applications Google Workspace. Google a surtout amélioré la gestion du texte, ce qui devrait simplifier la création de flyers ou de cartes.

Une image créée avec Imagen 4. Image Google

Les modèles de générations d’images ont pendant longtemps été très mauvais pour reproduire du texte, produisant un gloubiboulga incompréhensible. OpenAI avait commencé à corriger le tir dès 2023 avec DALL-E 3, mais la technologie restait assez perfectible. GPT-4o a amélioré les choses en début d’année, et Google cherche désormais à se mettre au niveau. La firme de Mountain View affirme qu’Imagen est nettement plus performant en orthographe et en typographie. Il devrait également mieux se débrouiller avec des détails fins, comme les tissus complexes, les gouttes d'eau et le pelage des animaux.

Google a annoncé qu’une version encore plus rapide d'Imagen 4 serait déployée « prochainement ».

Google a aussi lancé un nouveau modèle de génération de vidéo baptisé Veo 3, qui a comme principal intérêt de pouvoir créer du son (ce qu’OpenAI ne propose pas encore avec Sora). L’entreprise a partagé quelques vidéos montrant les résultats, qui semblent assez impressionnants. Elle affirme que le modèle se débrouille très bien pour la gestion de la physique ou la synchronisation labiale. Cette nouveauté n’est pour le moment accessible qu’aux États-Unis pour les abonnés à l’onéreux forfait Ultra à 249 $ par mois.

Le modèle précédent Veo 2 a été amélioré : les utilisateurs peuvent désormais plus facilement gérer la caméra, demander au service d’imaginer ce qui se passe à l’extérieur d’une image ou encore ajouter/supprimer des éléments. L’entreprise a également lancé Flow, un logiciel de montage par IA combinant Veo, Imagen et Gemini afin de créer des vidéos complexes avec des invites textuelles. La nouveauté est réservée aux utilisateurs américains avec un abonnement Pro ou Ultra.