HeyGen : un service de doublage par IA qui peut vous faire parler plusieurs langues

Félix Cattafesta |

La startup HeyGen a récemment lancé un nouvel outil qui permet de facilement doubler n'importe quelle vidéo dans une autre langue grâce à l'IA. Le programme se démarque par sa simplicité et le fait qu'il s'occupe également de la synchronisation labiale. Le concept est simple : vous envoyez une vidéo d'au moins 30 secondes, et l'IA se charge de vous transformer en polyglotte.

Si la voix est parfois perfectible et que le passage au français ajoute un accent québécois, l'IA arrive cependant à déceler et à reproduire certaines intonations pour un résultat globalement impressionnant. Plusieurs langues sont disponibles, à savoir l'anglais, l'espagnol, le français, l'hindi, l'italien, l'allemand… Le site fonctionne avec un système de crédit et offre un essai gratuit. Plusieurs formules payantes sont proposées allant de 48 $ à 179 $ par mois. Elles permettent de retoucher des vidéos plus longues en 4K, de faire sauter le filigrane ou d'obtenir un accès prioritaire aux serveurs.

Si certains se sont amusés à faire parler le général de Gaulle en italien, la startup vise évidemment les entreprises. Il n'est pas difficile de trouver tout un tas de secteurs qui pourraient être intéressés par une pareille technologie : publicité, éducation, divertissement… HeyGen estime notamment qu'elle pourrait décupler la portée de plateformes comme Coursera ou Udemy en rendant ses utilisateurs polyglottes.

Cependant, on peut craindre de potentiels effets néfastes de cette technologie qui a de quoi inquiéter les doubleurs. La profession a été une des premières à se mettre en grève cet été aux côtés des scénaristes à Hollywood. Google travaille sur un outil similaire au fonctionnement différent, pour le moment exclusivement réservé à ses partenaires.

avatar FabC1608 | 

J’ai voulu faire un essai en gratuit ce matin, je suis toujours en attente du processus de conversion… trop de monde essaye en même temps je pense.

avatar 406 | 

pareil

avatar cravendish | 

@FabC1608

4 jours que je suis en « queuing »!

avatar FabC1608 | 

@cravendish

Ah oui en effet…

avatar cravendish | 

@FabC1608

Voilà, je l’ai enfin eue au bout de 5 jours! Mais vraiment bluffant comme résultat!

avatar dujarrier | 

Ces technologies sont déjà très impressionnantes et, l’IA pour obtenir ce résultat est probablement entrainé sur du materiel (GPU) qui n’est pas réellement efficace energetiquement pour créer des réseaux de neurones artificiels.

On peut supposer que d’ici « seulement » 5 a 10 ans avec des technologies comme les memristors, il soit possible d’ameliorer tres sensiblement les performances de l’IA, pour un coût 10x / 100x moindre !!!

avatar mimolette51 | 

Il est marrant celui là, les GPU ne sont pas efficaces pour entrainer des réseaux : il n'existe absolument rien de disponible sur le marché de plus efficace!

avatar dujarrier | 

@mimolette51

A moitie vrai/faux je dirais. Il y a actuellement beaucoup d’efforts de R&D intenses pour développer des process et composants plus adaptés et plus efficace energetiquement que ce soit pour entrainer des reseaux de neurones et pour l’inference.

A la date de septembre 2023, il existe donc probablement deja ou « bientôt » (a horizon qque part entre 2025 a 2030) en laboratoire, des façon de faire (methodologie/process) plus efficaces.

Certaines commencent egalement a apparaitre commercialement tel Wafer Scale Engine (WSE) de la start-up Cerebras.

Neanmoins, a mes yeux, l’axe de R&D le plus prometteur semble etre le developpement des memristors (memoire non-volatile memristive) et des technologies spintroniques (type VG-SOT-MRAM par le centre de recherche europeen IMEC), et l’utilisation de ces memristors dans le domaine analogique (et non pas numerique) a la place de transistors pour reproduire des synapses artificielles, qui en theorie peut permettre un gain d’efficacité energetique 100x / 1000x ou plus…

https://www.cerebras.net/product-chip/

https://www.imec-int.com/en/articles/novel-sot-mram-architecture-opens-doors-high-density-last-level-cache-memory-applications

https://www.eetimes.com/research-breakthrough-promises-end-to-end-analog-chips-for-ai-computation/

https://www.eetimes.com/rain-demonstrates-ai-training-on-analog-chip/?utm_source=aihardwareshow&utm_medium=youtube

avatar Paquito06 | 

On n’arrete pas l’progres! 🥹
Le reve de tout touriste 🤯

avatar oomu | 

@Paquito06

le dernier qui a essayé, il a été enterré sous une charrue ;)

avatar fleeBubl | 

@Paquito06

Le doublage tortué par la tourista devrait être top

avatar jackhal | 

C'est peut-être un moment où il y a des places à prendre (ou bien les startups finiront rachetées).
J'avais vu ça il y a quelques jours avec un américain qui se fait ensuite traduire en français (avec une pointe d'accent québécois) et en allemand : https://twitter.com/0xgaut/status/1701624127755337901
J'ai partagé, et ma publication a été partagée, parce que c'est impressionnant.
Peu après j'en ai entendu parler dans un podcast du NYT, maintenant MacG... mais seule la première appli qui fait ça aura cette exposition. On s'habituera vite.

Il y a une autre appli dont j'ai entendu parler d'un coup depuis des sources sans connexion, c'est GOYO, un plug-in VST qui pffre trois réglages permettant d'équilibrer le son d'ambiance, celui de la voix, et celui de la réverbération. Super simple, super efficace (et utilisant aussi l'IA).
Exemple (dans le dernier épisode du podcast de Silence on Joue) : https://youtu.be/CiKlKo6lfcQ?feature=shared&t=10422
Franchement, une boite comme Apple pourrait avoir envie de les racheter (ou ceux qui leur fournissent la techno puisqu'elle vient d'une autre boite, apparemment. Mais qui compte pour quoi dans le résultat, j'en sais rien).

avatar Paquito06 | 

@jackhal

Ah sans connexion ca peut etre super oui. Pour le moment c’est encore google translate qui est tres repandu et il faut bien evidemment du reseau, seule limite.

avatar fleeBubl | 

@jackhal

Faudra pas oublier les mimiques et la gestuelle : pour détecter des cas cliniques où la respiration coupé empêche de parler, par exemple … sans la latence ou l’absence de la connexion

avatar raoolito | 

assez bluffant MAIS est vraiment une traduction juste de ce qui est dit?

avatar fleeBubl | 

@raoolito

Naaan ! Pas sans un accordage fin, à la clef près

avatar Splafi | 

Ça peut être très intéressant pour les YouTuber

avatar Serge 001 | 

« Si la voix est parfois perfectible (le français a un accent québécois) »

Faut-il comprendre qu'elle aurait été parfaite si elle avait eu un accent français ?

avatar Paquito06 | 

@Serge 001

“« Si la voix est parfois perfectible (le français a un accent québécois) »
Faut-il comprendre qu'elle aurait été parfaite si elle avait eu un accent français ?”

D’un point de vue d’un Francais de l’hexagone, l’accent l’aurait ete, bien sur! Fondamentalement, parfait ne veut rien dire pour la langue. D’où les traductions francaises ou francais canadien des films, faut se faire l’oreille. Pareil en anglais avec l’anglais us/british/aussie/kiwi. C’est d’ailleurs dispo dans iOS, chaque specificite, ca ne veut pas dire que l’une ou l’autre langue selon l’accent est plus parfaite qu’une autre. Enfin, macgé est lyonnais, avec un public originaire, majoritairement, de l’hexagone, qui doit avoir Siri pour l’audio/dictee, en francais non canadien.

avatar Serge 001 | 

@Paquito06

C'était une petite boutade —j'aurais dû ajouter un p'tit clin d'oeil à la fin de mon commentaire. Il n'y a évidemment pas d'accent parfait. Il n'y a que l'accent local. L'important, c'est qu'on arrive tous à se comprendre.

avatar Paquito06 | 

@Serge 001

Ahah. Oui 😅👍🏼

avatar marenostrum | 

normalement, vu qu'il s'agit de Intelligence, la traduction doit se faire dans l'accent de l'écouteur tout seul (si t'es québécois, en québécois, si t'es français, en français, belge pareil, suisse, etc,). y a que ça qui est parfait, rien d'autre.

avatar fleeBubl | 

@Serge 001

Y’a que vous qui n’aviez pas compris

avatar Knulp | 

Si la voix est parfois perfectible (le français a un accent québécois)... Allez hop les cul-terreux québécois. Sortez de vos cabanes et allez apprendre le vrai français.

avatar Knulp | 

Et puis ce serait bien de définir pour chaque langue qu'elle est la bonne prononciation et celle permise , parce que les français parlent je ne sais quel anglais. Ail ham verrerie sûr of datte.

avatar Paquito06 | 

@Knulp

😂😂😂

avatar DahuLArthropode | 

@Knulp

Je suis obligé de parler comme ça à Siri quand il est réglé en français pour qu’il comprenne les titres en anglais.

avatar fleeBubl | 

@Knulp

Passage obligé pour ce comprendre, s’tu’ois 🤨

avatar Knulp | 

Le passage au français peut ajouter un accent québécois, ce qui prouve que l'IA progresse et arrive à déceler et à reproduire certaines intonations pour un résultat globalement impressionnant. Toutefois, considérant la multitude des accents en France, l'IA se montre impuissante à les reproduire toutes, et dans ces cas elle opte pour un accent à consonance québécoise puisque l'accent québécois est, selon l'IA, l'accent de référence de la langue française.

avatar jackhal | 

Ce que tu écris n’a pas de sens sur le plan technique. L’IA peut reproduire tous les accents, il suffit de l’entraîner pour. L’accent québécois n’est là que parce qu’ils ont entraîné leur modèle de diction française avec un/des francophone(s) québécois.

avatar Knulp | 

Le passage au français peut ajouter un accent québécois, ce qui prouve que l'IA progresse et arrive à déceler et à reproduire certaines intonations pour un résultat globalement impressionnant. Toutefois, considérant la multitude des accents en France, l'IA se montre impuissante à les reproduire toutes, et dans ces cas elle opte pour un accent à consonance québécoise puisque l'accent québécois est, selon l'IA, l'accent de référence de la langue française.

avatar Paquito06 | 

@Knulp
Ca serait sympa d’avoir l’accent marseillais, toulousain, nissart, breton, corse, etc., avec Siri, nan? Je signe direct.

avatar fleeBubl | 

@Knulp

C’est ça : j’ai entendu dire, qu’ia arrivait même à comprendre un particularisme, d’un slang anglais en hindi … ia peu tout faire ! particulièrement, en recommençant tout depuis le début.

avatar Knulp | 

Voilà une formulation diplomatique.

avatar Paquito06 | 

@Knulp

Merci 😁

avatar fleeBubl | 

@Knulp

C’est tout le mirage de la magie de la communication, qui s’en trouverait … totalement boulversifiée … sinon

avatar Gregoryen | 

Du coup, comment être sûr que la traduction est bonne par rapport au texte original ?

avatar Bicus | 

Comme pour tout ce qu'on sous-traite à des algorithmes obscurs d'« intelligence artificielle » : aucun moyen, puisqu'une vérification humaine reviendrait à embaucher un traducteur...

D'autres questions encore plus drôles :
- une fois qu'on a généré plusieurs versions dans plusieurs langues, comment prouver laquelle est la version originale qui fait foi en cas de discordance de sens ?
(C'est en partie pour ça qu'en documentaire, on privilégie le Voice-Over qui laisse toujours entendre en fond la voix originale, ou le sous-titrage)

Et puis on rejoint les Deep-Fakes volontaires :
- comment prouver que cette vidéo hyper-réaliste d'Emmanuel Macron (son image, sa voix, mouvements parfaits, synchronisation labiale parfaite, ...) qui dit « Franchement, Poutine, il a bien fait d'attaquer l'Ukraine » est fausse ?
Et même si c'est débunké, l'auteur du Deep-Fake pourra maintenant dire « Woups, désolé, je n'avais aucune intention de nuire volontairement : c'est un bug de l'IA de traduction ».

Bref, c'est comme pour ChatGPT ou les IA d'images génératives : on est tellement occupés à applaudir à la prouesse technique et à calculer l'argent qu'on va économiser en virant les graphistes, les auteurs, les traducteurs, ... qu'on en occulte bien volontairement toutes les questions problématiques.

avatar BeePotato | 

@ Bicus : ​
Comme pour tout ce qu'on sous-traite. Point.

Même avec un interprète humain, on n’a pas de moyen de vérifier que la traduction est bonne si on ne connaît pas la langue cible. Et même avec un interprète humain, elle peut être mauvaise, voire franchement un contre-sens (on le constate régulièrement).

avatar Bicus | 

Un traducteur humain on peut discuter avec, il peut dire « Là je n'ai pas bien compris, c'est bien si quelqu'un d'autre peut re-vérifier ce que dit la source » ou « Là j'ai choisi telle formulation, un peu éloignée du littéral mais qui reflète mieux les intentions du locuteur source ».

L'algorithme sort sa réponse d'un boîte noire et la présente comme la vérité absolue sans doute ni nuance.

avatar BeePotato | 

@ Bicus : « Un traducteur humain on peut discuter avec, il peut dire « Là je n'ai pas bien compris, c'est bien si quelqu'un d'autre peut re-vérifier ce que dit la source » ou « Là j'ai choisi telle formulation, un peu éloignée du littéral mais qui reflète mieux les intentions du locuteur source ». »

Rien n’interdit de mettre en place un système d’IA (possiblement reposant sur plusieurs modèles pour aider aux vérifications) implémentant une telle approche.

« L'algorithme sort sa réponse d'un boîte noire »

Un peu comme un traducteur humain, qui sort sa réponse de sa boîte cranienne (où il fait plutôt sombre).

« et la présente comme la vérité absolue sans doute ni nuance. »

Ça, c’est faux.

avatar Bicus | 

Je n'ai pas testé HeyGen, tu as donc visiblement plus d'informations que moi.
Le logiciel génère-t-il à côté du fichier vidéo un rapport avec un niveau de confiance / confidence de sa traduction ?
On peut donc voir à quel moment il a douté, hésité, quels choix il a fait et pourquoi, quels moments lui ont posé problème, ... ?

avatar BeePotato | 

@ Bicus : « Je n'ai pas testé HeyGen, tu as donc visiblement plus d'informations que moi. »

Oups ! Non, je n’ai pas été bien clair : j’étais parti à parler de l’IA de manière générale, et non de ce système précis. Je ne l’ai pas testé et je ne sais donc pas ce qu’il propose comme interface et fonctionnalités.
Désolé pour la confusion !

avatar Bicus | 

L'IA de manière générale peut aussi écrire de grosses conneries avec aplomb et sans aucun doute ni nuance :
https://forumia.fr/t/comment-differencier-les-oeufs-de-vache-des-oeufs-de-poule-selon-chatgpt/13

Dans le cas des œufs de vache c'est rigolo.

Si l'IA traduit une vidéo de Zelensky ou de Poutine qui dit « Cette femme Ukrainienne est une bombe, elle m'a tué » par « L'Ukraine tue ses femmes avec des bombes » sans que personne ne sache comment ni pourquoi ça a traduit ça comme ça, et qu'on ne soit pas en mesure de comprendre, relire, vérifier, contredire, remonter à la source, ... ça va tout de suite être moins rigolo !

Mais bon, ça permet de faire chanter « Tu veux mon zizi ? » à Frank Sinatra sur Tik-Tok, alors tout va bien !

avatar BeePotato | 

@ Bicus : « L'IA de manière générale peut aussi écrire de grosses conneries avec aplomb et sans aucun doute ni nuance :
https://forumia.fr/t/comment-differencier-les-oeufs-de-vache-des-oeufs-de-poule-selon-chatgpt/13 »

D’une part, ça, ce n’est pas l’IA de manière générale, mais un système bien précis.
D’autre part, comment savoir qu’il n’y a aucun doute puisque l’interface de ce système ne nous donne pas les probabilités associées aux sorties (qui permettraient de se rendre compte du niveau de doute du machin) ? C’est là un problème d’interface d’une application précise plus qu’un problème fondamental de l’IA.

avatar v1nce29 | 

Le voici over c'est plutôt pour une raison de coût, non ?
C'est moins cher de faire un 'mauvais' doublage (pas de synchro labiale) mais ça donne un rendu bizarre que tu peux atténuer en laissant l'audio d'origine.

avatar Bicus | 

Clairement, oui, ça coûte moins cher qu'un doublage labial. Mais le résultat permet aussi de distancier l'original de la traduction, ce qui est journalistiquement intéressant : on assume le côté "interprété" et distant de la traduction par rapport à l'original qui reste cité.

Contrairement à une IA qui remplace carrément les mouvements des lèvres (et la technologie est bluffante, on ne peut qu'admirer la prouesse technique) et induit de fait une ambiguïté : si on voit une vidéo d'Emmanuel Macron parlant anglais, bien malin qui pourra dire s'il s'agit de la vraie personne s'exprimant nativement en anglais (étant donc responsable de ce qu'il dit) ou alors d'une vidéo de la traduction FRA -> ENG (automatique, donc non vérifiée, et invérifiable sans la source) ?

(Les mauvaises langues, dont je fais partie, diront que l'IA fera mieux parler anglais les Français, mais cette blague ne doit pas masquer la question de fond :D )

avatar BeePotato | 

@ Bicus : « Mais le résultat permet aussi de distancier l'original de la traduction, ce qui est journalistiquement intéressant : on assume le côté "interprété" et distant de la traduction par rapport à l'original qui reste cité. »

👍
En tant que spectateur, je préfère nettement cette approche à un doublage, précisément pour les raisons que tu cites.
(Bon, en fait je préfère encore plus le sous-titrage, surtout si je comprends la langue d’origine, mais en deuxième position c’est le voiceover, loin devant un doublage.)

avatar occam | 

@Bicus

"on va économiser en virant les graphistes, les auteurs, les traducteurs, ... qu'on en occulte bien volontairement toutes les questions problématiques"

Ce genre d’outil a toutes les chances d’exacerber les monolinguismes nationalistes. Par exemple, dans le cas des Brexiteers, la corrélation entre le degré d’extrémisme politique et l’aversion des langues étrangères est étayée.

Or, des études récentes montrent les avantages cognitifs résultant du fait de travailler dans une autre langue :
https://www.cambridge.org/core/journals/bilingualism-language-and-cognition/article/foreign-language-effect-on-tolerance-of-ambiguity/54A1ABB8E1A2609F155512821A4CC41E#
https://psycnet.apa.org/doiLanding?doi=10.1037%2Fxge0001378
(Le second article n’est pas encore en accès libre, mais l’abstract le résume parfaitement.)

De nombreuses entreprises seront tentées de faire l’économie de leurs services de traduction. La valeur compétitive de la connaissance de langues étrangères sera diminuée. Très vite, on voudra rogner sur l’apprentissage des langues. On aura tort, mais on ne s’en rendra compte que lorsque le dégât sera irréversible. Comme toujours.

avatar vince29 | 

> le degré d’extrémisme politique

disons simplement l'orientation politique, l'extrêmisme étant dans l'oeil de celui qui regarde.

> l’aversion des langues étrangères

aversion ? vraiment ? C'est pas simplement une indifférence ? Inutilité perçue ?

> des études récentes montrent les avantages [...] résultant du fait de travailler dans une autre langue

Des expériences anciennes montrent les désavantages à travailler dans une autre langue (Babel, Mars Climate Orbiter) : )

Pages

CONNEXION UTILISATEUR