Google veut simplifier la vie des créateurs de vidéos YouTube et va prochainement proposer des doublages par IA. L'entreprise a pour cela fait appel aux équipes du service spécialisé Aloud, issu de sa division Area 120 en charge de différents types de projets expérimentaux.
Une vidéo de présentation explique comment tout fonctionne sous le capot. Le service génère tout d'abord une transcription du texte, que l'utilisateur peut modifier et adapter. Le script est ensuite traduit et lu par l'IA afin d'être facilement greffé à la vidéo. Il est possible d'avoir une idée du résultat sur cette vidéo de la chaîne The Amoeba Sisters : il suffit de sélectionner la piste doublée en espagnol en cliquant sur la roue dentée en bas à droite du lecteur.
Si les services d'Aloud ont été présentés début 2022, leur intégration sur YouTube aujourd'hui n'est pas surprenante. La plateforme a lancé depuis quelque temps une fonction permettant de proposer plusieurs pistes audio sur une vidéo. Le vidéaste MrBeast affiche ainsi pas moins de 13 doublages sur ses dernières vidéos, allant du japonais au français en passant par l'arabe ou le turc. Actuellement, les services d'Aloud se limitent à l'anglais, à l'espagnol et au portugais, mais d'autres langues devraient arriver par la suite.
YouTube a confirmé à The Verge que la fonction était en ce moment en cours de test avec une centaine de créateurs, et qu'elle avait pour ambition de la proposer à un plus grand nombre courant 2024. Sur le long terme, l'objectif est de « faire en sorte que les pistes audio traduites ressemblent à la voix du créateur, avec plus d'expression et une synchronisation labiale ».
Ce projet n'est pas sans rappeler le « Traducteur Universel » de Google, présenté lors de la dernière grande conférence du groupe. Celui-ci double les vidéos à l'aide de l'IA et fait en sorte que les lèvres d'une personne soient synchronisées de façon convaincante. Or, ce traducteur ne devrait être proposé qu'à une poignée des partenaires : Google craint que la technologie puisse être utilisée pour créer facilement des deepfakes, visant à faire raconter n'importe quoi à n'importe qui.