Voice Engine : le nouveau modèle d’OpenAI peut cloner une voix à partir de quelques secondes d’enregistrement

Félix Cattafesta |

OpenAI vient de lever le voile sur un nouveau modèle d’IA aussi intrigant que dangereux : Voice Engine, qui peut cloner une voix de manière crédible en se basant sur un extrait de seulement 15 secondes. Dans son billet de présentation, l’entreprise y met en avant différents exemples d’utilisation. Elle y pointe une utilité pour de l’aide à la lecture, du doublage en langue étrangère ou encore dans le domaine de l’accessibilité.

Image : Pixabay.

L’entreprise est à la pointe en matière d’IA, et sans surprise, les résultats de Voice Engine sont bluffants. Le système se base sur une API Text-to-speech qui va lire un texte généré. Voici par exemple ce que cela donne pour de la traduction :

L’enregistrement de base.
L’audio généré en français.
En espagnol.
Et en mandarin.

La technologie peut également servir à redonner une voix à ceux qui l’ont perdue, par exemple suite à une maladie. OpenAI donne l’exemple d’une jeune patiente ayant perdu la fluidité de son élocution après une tumeur cérébrale vasculaire. Des scientifiques se sont basés sur un extrait audio d'une vidéo enregistrée dans le cadre d'un projet scolaire avant de la passer dans le modèle.

La voix de la patiente actuellement.
L’extrait utilisé.
Le résultat avec Voice Engine.

Apple dispose déjà d’une technologie similaire depuis iOS 17, qui est cependant beaucoup plus limitée : il faut lire des phrases spécifiques pendant une quinzaine de minutes, ce qui ne sera pas forcément possible pour tous les patients. Le modèle d’Apple ne fonctionne pour le moment qu’en anglais. On peut espérer voir des améliorations lors de la prochaine WWDC, où ce type d’IA devrait jouer un rôle important.

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Si le modèle n’est pas disponible auprès du grand public, il est déjà utilisé depuis quelque temps. C’est lui qui se charge de lire à haute voix les réponses de ChatGPT dans l’app, et qui double certains podcasts disponibles sur Spotify dans une langue étrangère. Les prix devraient être plutôt agressifs lors de sa mise sur le marché. TechCrunch a pu voir une grille tarifaire depuis effacée du site d’OpenAI annonçant qu’il faudra débourser 15 $ pour lire environ 162 500 mots. Pour cette somme, on aura de quoi faire lire un roman comme Oliver Twist (736 pages au format poche) avec encore un peu de temps supplémentaire. Cela correspond à peu près à 18 h d’audio.

Malgré ses bonnes performances, le modèle a quelques petits défauts. Le représentant d’OpenAI Jeff Harris a confié à TechCrunch que Voice Engine n’était pas très personnalisable : on ne pourra pas modifier le ton ou la vitesse de la voix. L’extrait de 15 secondes utilisé aura logiquement une grosse influence sur le résultat, et parler d’une manière enjouée donnera un ton similaire à l’intégralité des paroles.

La fonction « Voix personnelle » d’iOS 17.

Aucune date de déploiement public n’a été annoncée pour le moment, ce qui n’est pas très surprenant. Une telle technologie pourrait être utilisée pour de nombreuses arnaques ou pour faire dire n’importe quoi à n’importe qui. Il y a un an, Vice avait réussi à feinter le système d’authentification d’une banque à l’aide d’une voix générée par IA. La nouveauté est pour l’instant uniquement accessible à une poignée de partenaires.

L’entreprise promet de mettre le paquet sur la sécurité avant un potentiel lancement public, qui n’est pas à l’ordre du jour. Elle affirme avoir intégré un système de filigrane permettant de voir si un enregistrement est faux, et réfléchit à un système impliquant de lire des phrases aléatoires pour prouver que la personne dont la voix est clonée est bien présente. « Nous voulons nous assurer que tout le monde est satisfait de la manière dont ces technologies sont déployées, que nous comprenons les dangers qu'elles représentent et que nous avons mis en place des mesures pour y remédier », a déclaré Jeff Harris.

avatar iDanny | 

Au fait, on sait quand on pourra enfin configurer Voix Personnelle en français sur iOS ?

avatar R-APPLE-R | 

Voice Engine + https://youtu.be/fvWZ2kjTo-Q?feature=shared Les arnaques au téléphone vont fusées 👿

avatar bazino | 

@R-APPLE-R

🚀🚀🚀

avatar 0MiguelAnge0 | 

Le passage en français n’est pas si sidérant: l’accent anglais de fond est bizarre.

avatar BeePotato | 

@ 0MiguelAnge0 : « Le passage en français n’est pas si sidérant: l’accent anglais de fond est bizarre. »

Disons que ce n’est pas parfait (l’accent est mignon, surtout dans le cadre d’une traduction, mais effectivement bien présent), mais on peut tout de même trouver sidérant le fait qu’on en soit déjà arrivé à un tel niveau.

avatar Fids0769 | 

@BeePotato

Justement ça reste réel. La voix originale est anglaise donc normale que l’accent soit là dans les autres langues. Je trouve ça dingue justement. C’est comme si on prenait ta voix et qu’on te faisait parlait sans accent français en anglais. C’est censé copier ta voix donc normal que l’accent originel reste présent.

avatar BeePotato | 

@ Fids0769 : « C’est censé copier ta voix donc normal que l’accent originel reste présent. »

C’est discutable : tout le monde n’a pas la même dose d’accent originel en parlant une langue étrangère ; certains n’en ont pas du tout.
Selon l’usage, on peut vouloir souhaiter la présence d’un accent plus ou moins marqué dans la voix synthétisée, ou pas du tout. Pour ce système-ci, n’étant pas allé lire d’article le décrivant en détails, je ne sais pas si c’est possible ou pas.

avatar Fids0769 | 

@BeePotato

A voir quand ça sortira mais dans l’idée ça me paraît pas deconnant en tous cas.

avatar vincentn | 

Justement, c'est le but, c'est volontaire de la part d'OpenAI ! C'est tenter, pour un locuteur donné, de reproduire sa voix, la tonalité de l'échantillon et son "accent".

Je cite un passage du billet de la présentation de cette technologie :
"Lorsqu'il est utilisé pour la traduction, Voice Engine préserve l'accent natif du locuteur d'origine : par exemple, générer l'anglais avec un échantillon audio d'un francophone produirait un discours avec un accent français."

Reste en effet la problématique de la tonalité, de l'émotion dans la voix… Pour cela, il faudrait que le modèle d'OpenAI comprenne le texte, et ces systèmes en sont incapables. Certes, on peut déterminer un sens positif ou négatif d'un texte, mais saisir et reproduire avec la voix l'ironie,l'émotion, etc. d'un texte, d'un propos, on n'est pas prêt d'y arriver (ou en trichant par le rajout de métatextes sous forme de balises peut-être).
La modification du débit de la voix, elle, viendra probablement assez rapidement.

Après la comparaison faite par MacG avec la technologie d'Apple est un poil biaisée. On compare deux systèmes :
- avec près d'un an d'écart (ce qui dans le domaine de "l'IA" est actuellement très important comme temps),
- l'un utilisable par un usager, l'autre encore au stade de la démo technique de la société (même si cette demo multilingue fait impression, comme il y a quelques semaines/mois, dans le même domaine, ce qu'a montré Meta),
- l'un réalisé et stocké en local, l'autre entièrement sur des serveurs.
- L'un utilisable uniquement sur l'appareil de l'usager (même si transférable de façon chiffrée sur un autre de ses appareils), pour un usage personnel et non commercial, l'autre utilisable partout et de façon commercial.
- l'un avec la probable volonté de ressembler mais pas d'imiter parfaitement pour éviter la tromperie, l'autre, avec au contraire la volonté d'imiter, accent compris.

avatar Scooby-Doo | 

@0MiguelAnge0,

« Le passage en français n’est pas si sidérant: l’accent anglais de fond est bizarre. »

Je comprends votre remarque mais ce service respecte le phrasé, les intonations et l'accent si possible.

Cela peut effectivement donner un résultat étrange car chaque langue possède ses règles de phrasé et d'intonation !

Par exemple en Français et en Anglais, nous ne marquons pas de la même façon l'interrogation !

👌

avatar gwen | 

@0MiguelAnge0

Justement je trouve ça bluffant car tu garde le ton original de la voie et cela fait comme si c’était la personne native qui parlait et qu’elle maîtrisait à la perfection le français, l’espagnol ou le mandarin. J’ai crus comprendre que c’était ce qui était recherché dans cet exemple.

Ensuite il sera sûrement possible d’avoir la mène phrase dite par d’autres type de personnes, mais ça on sait déjà faire. La, ce qui est impressionnant c’est qu’une même personne peut parler toutes ces langues.

avatar debione | 

Cela avance vraiment vite dans ce domaine, ceux qui n'ont pas pris le train en marche vont rester à quai.
Et malgré les cris de certains concernant la commission de l'UE ou le DoJ, il est urgent d'encadrer et de légiférer très strictement sur ce domaine.

avatar Fennec72 | 

@debione

Vous évoquez notamment le DoJ.
Après ça et tout les « exploits » permis par l’IA en matière de photo et de vidéo, que va-t-il rester comme crédibilité aux preuves photographiques, vidéo et audio, notamment en matière de justice ou d’enquête journalistique?

avatar Scooby-Doo | 

@Fennec72,

« Après ça et tout les « exploits » permis par l’IA en matière de photo et de vidéo, que va-t-il rester comme crédibilité aux preuves photographiques, vidéo et audio, notamment en matière de justice ou d’enquête journalistique ? »

C'est un risque évidemment !

D'un autre côté, nous avons eu des experts en histoire de l'art qui se sont fait avoir par des faussaires de génie !

Certains musées ont acheté des faux en pensant de bonne foi faire une acquisition d'une grande importance !

Et je ne vous parle même pas de la fausse monnaie !

La fraude n'a pas attendue l'IA pour exister.… L'IA va juste l'automatiser et la démocratiser !

🧐

avatar MGA | 

@Scooby-Doo

« La fraude n'a pas attendue l'IA pour exister.… L'IA va juste l'automatiser et la démocratiser ! » c’est ça le problème pas la fraude en elle même. Tant qu’il est très difficile de créer un faux tableau cela ne pose pas trop de soucis et c’est très ponctuel. Grace à l’IA nous allons vivre dans un monde de « faux », fausses voix, fausses illustrations, fausses photos, faux interlocuteurs au téléphone…
Vous mettez en revanche en avant ce que je vois comme la seule application vertueuse de l’IA pour le moment : l’aide aux malvoyants avec une IA exclusivement locale et spécialisée dans la description instantanée de l’environnement.

avatar Scooby-Doo | 

@MGA,

« C’est ça le problème pas la fraude en elle même. Tant qu’il est très difficile de créer un faux tableau cela ne pose pas trop de soucis et c’est très ponctuel. Grace à l’IA nous allons vivre dans un monde de « faux », fausses voix, fausses illustrations, fausses photos, faux interlocuteurs au téléphone… »

👍

Effectivement et c'est un grand risque !

Toute technologie ou outil est neutre en soi !

C'est son usage qui peut être positif ou négatif pour l'humanité !

La bombe atomique nous a “protégé” d'une attaque des soviétiques mais pourrait aussi nous anéantir !

Ce problème existe depuis que l'homo sapiens a pris une pierre pour assommer un animal ou tuer un adversaire ou construire un abri !

👌

avatar Derw | 

@Scooby-Doo

Certes, c’est une réalité indéniable, mais comme vous l’évoquez, on fait beaucoup plus de dégâts avec une bombe atomique sur la tête du voisin qu’avec une pierre. Comme vous dites, un outil est neutre et le problème est l’humain qui l’utilise. Mais comme les outils sont inventés par des humains, pour des humains, on peut quand même légitimement se demander si l’outil inventé ne risque pas de créer plus de problèmes qu’il n’en règle. Et là, comme pour les réseaux sociaux, j’ai comme un doute…

avatar CountDown | 

« Toute technologie ou outil est neutre en soi ! »
C’est totalement faux.

avatar Derw | 

@MGA

Grace à ce « merveilleux » algorithme de YouTube, j’ai eu hier dans les vidéos proposées dans la colonne de droite, une qui m’a interpellée par son titre assez réac. Aiguillonné, je suis allé voir par curiosité. Là, une femme, assez jolie, mais avec un look un peu artificiel (décolo, sourcils redessinés, surmaquillée) sur fond noir, a commencé à me raconter son histoire, un peu abracadabrante. Il y a 10 ans, je me serais demandé si ce n’était pas une actrice au service d’une cause. Mais hier j’ai sérieusement eu un doute sur la tangibilité même de la personne qui parlait…

-> je ne sais pas si les manipulations sur YouTube ont commencé, mais ma confiance a disparu…

avatar Artefact3000 | 

@debione

Bien d’accord mais je ne vois pas comment on pourra empêcher les utilisations frauduleuses.

avatar Scooby-Doo | 

@Artefact3000,

« Bien d’accord mais je ne vois pas comment on pourra empêcher les utilisations frauduleuses. »

Comme toujours l'éternel problème de l'outil et son usage !

Le couteau qui vous sert à beurrer votre tartine le matin ou couper votre steak ou vos lasagnes végétariennes à midi, ben ce même couteau peut servir dans un acte terroriste !

Conclusion : supprimons les couteaux, les fourchettes, les cutters, les ciseaux, etc…

Mangeons avec les mains !

Et encore ! Les mains peuvent servir à beaucoup de choses y compris étrangler ou tuer à main nue si vous êtes rompu au close-combat !

Conclusion : coupons les mains qui sont de potentielles armes…

🤪

avatar Artefact3000 | 

@Scooby-Doo

Conclusion : le couteau à beurre ne menace pas l’information et la démocratie.

avatar Scooby-Doo | 

@Artefact3000,

« Conclusion : le couteau à beurre ne menace pas l’information et la démocratie. »

Conclusion : vous placez la menace de l'information et de la démocratie au-dessus du meurtre et de l'acte terroriste !

L'imprimerie, la radio, la télévision, les réseaux sociaux ont servi et servent à diffuser des informations “authentiques” ou “fausses” depuis leur quasi naissance !

En URSS, on effaçait à la main des photos officielles ceux qui étaient tombés en disgrâce !

La propagande et la manipulation n'ont pas attendu les IA il me semble !

👌

avatar Freitag | 

@Scooby-Doo

Ils pouvaient même effacer une personne d'un film, comme un membre écarté du parti par Staline se tenant près de lu pendant un discours du tyran.
Vu sur Arte.

avatar Artefact3000 | 

@Scooby-Doo

Demande à ton maître d’arrêter de mettre du LSD dans ton bol d’eau et repose-toi.

avatar Scooby-Doo | 

@Artefact3000,

« Demande à ton maître d’arrêter de mettre du LSD dans ton bol d’eau et repose-toi. »

😁

Je ne me repose quasiment pas !

👌

avatar MGA | 

@debione

L’UE préfère s’attaquer aux broutilles non-stratégiques (usb-c, choix du navigateur sur iphone donc renforcer Chromium et Chome…)
Elle s’en occupera très tard quand elle sera obligée de faire des compromis (le fameux « intérêt légitime » du consentement rgpd par ex…)

avatar debione | 

@MGA:

Ce qui est faux... Puisqu'elle a déjà commencé à légiféré sur l'IA.
Donc non, elle ne s'occupe pas très tard....

avatar MGA | 

@debione

Pour le moment il n’y a rien d’applicable et rien d’appliqué en matière d’encadrement de l’IA et en particulier en matière d’information du consommateur de la nature du contenu généré par l’IA.

avatar vincentn | 

Cela tombe bien, le Parlement européen a voté l'IA Act le 13 mars dernier, projet de loi en discussion depuis 2021, un compromis entre les Etats ayant été trouvé en février dernier.

https://www.macg.co/ailleurs/2024/03/ai-act-la-legislation-adoptee-au-parlement-europeen-142665

C'est un premier pas, perfectible a de nombreux égards, mais c'est la première législation dans le monde sur ce sujet.

Bon ce n'est pas vraiment grâce à la France, totalement pro business IA, qui a tenté de bloquer certains des garde-fous et contrôles imaginés au niveau européen.
Ce n'est pas comme si un ancien ministre du numérique, lobbyiste en chef de l'IA en France et en même temps conseiller officiel du gouvernement sur ce même sujet, n'était pas partie prenante d'une des principales entreprises de l'IA française (qui est aussi maintenant un peu américaine) et que l'industrie de la surveillance était un business florissant en France.

Mais le gouvernement français n'en a pas fini au niveau européen.
Il souhaite revoir le droit d'auteur (et pas au bénéfice de l'auteur), mettre en place un marché européen de la donnée (et oui il faut beaucoup de données pour alimenter et entrainer les modèles, mais ces données sont produites et détenues par d'autres et elles ont un coût) pour faciliter leur captation et casser les prix (au bénéfice des entreprises d'IA et au détriment des auteurs), renforcer le secret des affaires pour protéger encore plus le business de ces sociétés, en empêchant à la justice, aux chercheurs, à la presse, aux citoyens d'avoir la possibilité de comprendre les mécanismes mis en place par ces sociétés (leurs turpitudes juridiques et fiscales mais aussi leurs modèles et les moyens qu'ils ont utilisé pour les entrainer).

avatar MGA | 

@vincentn

Comme plus haut, vous confirmez qu’à ce jour il n’y a rien d’applicable et rien d’appliqué. Le consommateur de contenu n’est pas encore informé de la nature du contenu qu’il consulte. L’UE a plus posé les bas de ses futures travaux qu’autre chose. (Ce qui est déjà pas mal…)

L’IA va simplement beaucoup plus vite que les discussions qui s’y intéressent.

avatar vincentn | 

@MGA

Il y a en effet un délai pour la validation par les États européens, la mise en conformité des entreprises,, la comitologie, la transcription en droit national, etc.
Oui, le temps de la loi n’est pas celui des entreprises et de l’évolution technologique. Il en a toujours été ainsi.
Mais il existe déjà des moyens législatifs et contractuels pour gérer en partie ces problématiques (même si les trous dans la raquette sont nombreux, d’où l’AI act) : le droit autour des bases de données, les droits voisins, etc.

Mais, par exemple comment faire actuellement quand une organisation comme OpenAI n’a même pas de bureaux ou de représentation légale en France ou même en UE (leur premier bureau hors USA étant à Londres, celui de Dublin n’étant pas encore opérationnel) ?

avatar MGA | 

@vincentn

Toutes ces questions sont complexes… normalement c’est la raison d’être de l’UE et des Etats. Le citoyen européen doit pouvoir compter sur une UE qui réfléchisse et travaille dans un délai adapté aux enjeux.
L’unique urgence à mon sens est que le citoyen européen soit informé (pas protégé, pas infantilisé…), il doit savoir à mon sens et sans chercher qu’un contenu est généré par une IA, après chacun est libre de faire ses choix, et son opinion. Le « comment » est affaire de spécialistes que nous rémunérons parfois grassement pour ça via notre contribution au budget de l’Etat et au budget de l’UE.

avatar Scooby-Doo | 

@vincentn,

Comme la RGPD qui protège in fine les GAFAM plus que les Européens eux-mêmes, l'IA Act va en faire de même !

Les services resteront concentrés aux EUA et en Asie, l'Europe devant se contenter des miettes !

Où en est le fameux moteur européen de recherches sur Internet ?

L'Europe a réussi sa transition d'infrastructures numériques et raté celui des innovations dans les services !

Nous transportons et hébergeons, mais question innovation et création de valeur, ce sont les EUA qui mènent la danse !

Donc on peut légiférer, organiser, compartimenter, protéger, garantir sur des queues de cerises…

Où sont nos champions des télécommunications aujourd'hui ?

Tous partis en Asie !

L'Europe, une machine à perdre mais de manière encadrée et régulée !

Business as usual…

😁

avatar pat3 | 

@vincentn

"Mais le gouvernement français n'en a pas fini au niveau européen.
Il souhaite revoir le droit d'auteur (et pas au bénéfice de l'auteur), mettre en place un marché européen de la donnée (et oui il faut beaucoup de données pour alimenter et entrainer les modèles, mais ces données sont produites et détenues par d'autres et elles ont un coût) pour faciliter leur captation et casser les prix (au bénéfice des entreprises d'IA et au détriment des auteurs), renforcer le secret des affaires pour protéger encore plus le business de ces sociétés"

Si tu as des sources là-dessus, je suis preneur. Merci.

avatar vincentn | 

Il y a notamment Contexte qui suit pas mal ces choses-là (c'est une — excellente — source mais payante — et chère) ou d'autres sources spécialisées comme La Correspondance de la presse, du côté de Dalloz, etc.

Après, tu as des choses plus généralistes. Tu as par exemple l'entretien de Pascal Rogard dernièrement dans Le Monde. Il défend bien évidemment en premier lieu son bout de gras, mais cela donne quelques indications :

https://www.lemonde.fr/economie/article/2024/03/30/pascal-rogard-la-france-a-laisse-tomber-la-defense-du-droit-d-auteur-pour-faire-plaisir-a-mistral_6225003_3234.html

Il y a aussi un papier des Echos :
https://www.lesechos.fr/tech-medias/intelligence-artificielle/ai-act-le-droit-dauteur-pomme-de-discorde-du-compromis-europeen-2041859

Pour le secret des affaires, dans les trucs plus franco-français mais assez perfides, on a par exemple le projet de loi sur les juristes d'entreprises (ils avaient déjà tenté de le faire passer via un cavalier législatif il y a quelques mois) qui bloquerait nombre d'enquêtes financières par la justice en empêchant la saisie de nombres documents importants lors de perquisitions. Beaucoup d'affaires concernant les entreprises ne pourraient plus sortir et être jugées (ou beaucoup plus difficilement) si cette loi passe.

avatar oomu | 

Cessez donc de vous considérer comme de la merde (l’UE c’est vous et nous, et plus important: moi) et intéressez vous à tous les travaux européens au lieu d’en rester à la geekerie.

Vous verrez qu’on est tout aussi cynique et à nous affairer qu’un vulgaire russe.

avatar MGA | 

@oomu

Bien au contraire le français est très bien représenté par l’animal qui chante même les pieds dans la merde… vive nous… mais nos démocraties sont tout de même bien enrouées…

avatar v1nce29 | 

l'Europe c'est des lapins de 3 semaines.

avatar SelPoivre | 

On peut s’interroger sur les intentions de ce type de tech. L’IA est en train de créer un univers de non droit. Je suis super nostalgique des années 80… oui je suis vieux 😅

avatar UraniumB | 

@SelPoivre

S’il doit y avoir de mauvais acteurs, ils ne peuvent être qu’humains. La machine ne sera jamais responsable.

avatar SelPoivre | 

@UraniumB

Précisément.
La lenteur des législateurs, surtout aux USA, ça me laisse pantois

avatar DarKOrange | 

@SelPoivre

Vous avez vu l’âge moyen des législateurs ?

avatar Fennec72 | 

@DarKOrange

On se souvient encore du fameux « pare-feu Open Office » d’une ministre française il y a quelques années. 😂
Et ce n’est qu’un des nombreux exemples de l’ignorance crasse des législateurs en matière de technologies, en France, comme dans de nombreux pays.

avatar Scooby-Doo | 

@Fennec72,

« On se souvient encore du fameux « pare-feu Open Office » d’une ministre française il y a quelques années. 😂 »

😁

On s'en souvient et on en rigole encore !

Conclusion : une énorme ineptie peut devenir un excellent coup de communication !

👌

avatar DeaDPooL | 

Et elle est rentrée chez Orange, ça donne le niveau général dans notre pays.

avatar klouk1 | 

@Scooby-Doo

Cela dit le pare-feu open office existe réellement, maintenant

avatar Scooby-Doo | 

@klouk2,

« Cela dit le pare-feu open office existe réellement, maintenant »

Comme quoi Christine Albanel était une authentique visionnaire en plus d'être une excellente ambassadrice d'Open Office…

https://www.numerama.com/tech/15993-insolite-il-developpe-vraiment-un-pare-feu-open-office.html

😁

avatar Scooby-Doo | 

@DarKOrange,

« Vous avez vu l’âge moyen des législateurs ? »

Avez-vous vu l'abstention et l'âge des votants aux élections ?

Et qu'est-ce que l'âge d'un législateur vient faire dans l'équation ?

Ah oui, les jeunes seraient plus au fait des nouvelles technologies et d'un code moral ou des enjeux d'une société !

Jeunisme…

🤪

avatar Freitag | 

@DarKOrange

L'âge n'a rien à voir. La compétence, simplement.

Pages

CONNEXION UTILISATEUR