Le « Traducteur universel » de Google double les vidéos à l'aide de l'IA et s'occupe même de la synchronisation labiale

Félix Cattafesta |

Google a profité de la Google I/O pour déballer ses nouveautés en matière d'IA, et a levé le voile sur une technologie permettant de « traduire » une vidéo de manière assez impressionnante. Le service va artificiellement doubler un passage dans une autre langue et faire en sorte que les lèvres d'une personne soient synchronisées de façon convaincante. Cela donne l'impression d'un locuteur natif sans avoir besoin de véritablement doubler une vidéo. Une petite démo a été présentée pendant la conférence (1:15:00).

En coulisse, l'algorithme va transcrire la vidéo puis traduire le texte. Il va ensuite le faire lire à l'IA en recréant la voix du locuteur tout en faisant en sorte de garder l'intonation et le style. La piste est par la suite intégrée à la vidéo, avec une synchronisation labiale permettant d'offrir un résultat convaincant. Il y a encore une marge de progression pour Google (on peut voir les ficelles si on se concentre sur les lèvres), mais cela reste bluffant.

L'intérêt de la technologie est évident : Google montre que l'on pourrait par exemple doubler un cours en plusieurs langues sans devoir faire appel à plusieurs locuteurs natifs ou recourir à des sous-titres. Cependant, on peut également craindre les scénarios dans lesquels elle serait utilisée à mauvais escient. Google est bien conscient des risques et a expliqué sur scène ne pas trop savoir sur quel pied danser. L'entreprise y voit une « tension » entre audace et sécurité, précisant que le concept pourrait être repris pour créer des deepfakes malveillants visant à faire raconter n'importe quoi à n'importe qui.

Ce « Traducteur Universel » ne sera donc proposé qu'à des partenaires certifiés et intégrera des garde-fous pour éviter les abus. Google a aussi promis de mettre en place un système de filigrane dans ses modèles, qui devrait aider à « relever le défi de la désinformation ».

avatar Dziga_Vertox | 

Ces IA racontent tellement n’importe quoi c’est génial.

avatar Encoreplusgrincheux | 

Après les scenaristes, c’est les doubleurs qui vont faire greve.

avatar v1nce29 | 

Quand on connaît la "fiabilité" de Google Translate l'annonce perd beaucoup de sa crédibilité.

avatar Macadomia | 

Tout à fait d’accord ! Tres loin de de DeepL, par exemple

avatar RonDex | 

@Macadomia

+1 tout à fait je n’utilise plus que DeepL

avatar armandgz123 | 

@v1nce29

Rien n’empêche à Google d’améliorer Google Traduction et d’intégrer de l’IA dedans… c’est pas Apple hein 😅

avatar v1nce29 | 

Je n'ai pas l'impression qu'il y ait eu d'amélioration notable depuis... 10 ans ?

avatar armandgz123 | 

@v1nce29

Oh si quand même, c’est flagrant. Mais j’attends que Google intégré plus d’intelligence artificielle, ça sera super

avatar RonDex | 

@v1nce29

Heu si. Même si c’est pas au niveau de DeepL par exemple, on peut traduire une page web et c’est parfaitement compréhensible. Avant c’était un peu n’importe quoi. 🤷‍♂️

avatar Mike Mac | 

Et cela marche fort !

Regardez quand Emily Bland se met à chanter avec une voix grave d'homme... Du pur doublage temps réel !

https://www.youtube.com/watch?v=d4BfXMgpJRM

avatar iPop | 

@Mike Mac

C’est drôle que tu postes ce lien, j’étais en train de le faire une réflexion sur un gamin qui chantait de l’opéra avec une vrai voix de femme. 😄 qu’il manquait plus que ça.

avatar pat3 | 

@Mike Mac

C’est assez incroyable…

avatar ratz | 

ca a l'air incroyable...l'avenir du doublage par contre...

avatar machack | 

Est ce vraiment plus dangereux que du doublage normal ? Etonnant de le limiter a quelques “partenaires certifiés”. Surtout que c’est eux qui generent la traduction, donc ils peuvent s’assurer que le doublage dit bien la même chose que le texte original. Je ne comprends pas trop

avatar Phiphi | 

@machack

T’as pas du bien lire l’article alors parce qu’il réponds très précisément à ton interrogation.

avatar machack | 

@Phiphi

Je viens de relire l’article au cas où, mais j’ai toujours la même interrogation.

Tu parles de cette phrase « le concept pourrait être repris pour créer des deepfakes malveillants visant à faire raconter n'importe quoi à n'importe qui » ?

Si oui, ma question reste entière. En quoi cet outil permet plus de faire des deepfakes qu’un doublage traditionnel, et en quoi est ce un deep fake si google traduit uniquement le texte de base ?

Sachant en plus qu’il est déjà possible de faire des deep fakes convaincants, je ne vois pas de si grand risques à cette techno, qui peut par contre être extrêmement utile

avatar Phiphi | 

@machack

Ah ok je comprends mieux.
Selon moi, il est possible avec ces outils d’une part de travailler beaucoup plus vite, et d’autre part d’orienter les réponses de ce type d’outil, par un apprentissage spécifique, dans un sens mensonger ou favorable à certaines these de complotisme. Du coup tu as raison, tout ce qu’on peut faire faire à des IA est déjà possible autrement, mais l’IA va permettre de faire plus, plus vite, en bien comme en mal.
Pour être plus précis dans ce cas particulier, la simple transcription écrite du texte initial d’une vidéo de 10 minutes va prendre prendre forcément plus de 10 minutes à un humain, alors que l’IA en est capable en quelques secondes.
Et tout est a l’avenant. Mais quelque chose t’as échappé plus particulièrement, c’est que cette IA en particulier peut parfaitement imiter la voix du locuteur initiale. Alors imagine qu’au lieu de « traduire » à proprement parler, on s’en serve pour substituer des mots par d’autres, voire pour inventer totalement un discours sans rapport avec le texte initial, mais sans changer de langue. Non seulement on va pouvoir le faire en masse, et rapidement, mais en plus il sera extrêmement difficile de savoir à l’écoute distinguer le vrai du faux.
Voilà j’espère t’avoir aidé à te faire ta propre opinion. Je ne sais pas s’ils ont tord ou raison mais c’est à mon avis ce qu’ils craignent.

avatar machack | 

@Phiphi

Ok merci pour ton retour 👍

avatar Nesus | 

Ça c’est cool pour YouTube.
Enfin, ça va faire tourner des tonnes de serveurs pour pas grand chose, mais pour quelques cas, ça sera sympa (j’avoue que mon mandarin est loin d’être bon et parfois, j’aimerais bien avoir l’explication de l’image).

avatar rikki finefleur | 

Il pourrait commencer par youtube.
Jamais compris ce qu'il faisait..
Tu as par exemple une video tournée vers l'informatique, or la traduction est complétement à coté de la plaque

CONNEXION UTILISATEUR