Apple expérimente la création d'animations par des requêtes textuelles

Florian Innocente | 14/02/2024 à 16:45

Les chercheurs d'Apple publient régulièrement des synthèses de leurs travaux dans le domaine de l'intelligence artificielle. Un récent s'intéresse à la création d'animations par l'usage du langage naturel.

Avec Keyframer, les trois chercheurs sont partis du constat qu'il était devenu assez aisé de concevoir des images réalistes et sophistiquées avec des outils tels que Midjourney ou Dall·E en utilisant des requêtes textuelles. Mais qu'il était encore difficile d'obtenir la même chose dans le domaine de l'animation.

Le document publié s'intéresse à la manipulation d'objets SVG et d'animations CSS en utilisant de grands modèles de langage. En tapant des consignes textuelles, en langage naturel, l'animateur pourrait faire générer rapidement à l'application les images nécessaires à son animation et obtenir le code associé.

L'intérêt est aussi d'explorer rapidement plusieurs variantes en modifiant les requêtes soumises au logiciel, exactement comme on le fait avec ChatGPT pour affiner des réponses ou Midjourney pour tester d'autres rendus.

Cette approche a des avantages évidents mais elle n'est pas une solution complète, ont estimé des participants à l'étude. Certaines manipulations ou modifications sont plus rapides à exécuter à la souris dans l'interface de l'outil d'animation ou en modifiant le code. Les chercheurs d'Apple sont allés dans ce sens, en considérant que la bonne approche pouvait être de mêler les requêtes transmises à l'outil et les interventions directes de l'animateur.

Une autre limite réside dans l'impossibilité de créer de zéro des objets SVG ou de les modifier et d'intervenir sur les CSS avec des requêtes textuelles. Cela a pu être effectué lors de précédents essais mais avec des temps de réponse trop élevés pour être utilisables.

Au final, le trio de chercheurs voit dans Keyframer un moyen d'automatiser la génération de séquences animées sans mettre de côté le volet créatif qui est du ressort de l'humain :

Grâce à ce travail, nous espérons inspirer les futurs outils de conception d'animation, qui combinent les puissantes capacités génératives des LLM pour accélérer la conception par prototypage, avec des éditeurs dynamiques qui permettent aux créateurs de conserver un contrôle créatif en affinant et en itérant leurs réalisations.