Voice Engine : le nouveau modèle d’OpenAI peut cloner une voix à partir de quelques secondes d’enregistrement

Félix Cattafesta |

OpenAI vient de lever le voile sur un nouveau modèle d’IA aussi intrigant que dangereux : Voice Engine, qui peut cloner une voix de manière crédible en se basant sur un extrait de seulement 15 secondes. Dans son billet de présentation, l’entreprise y met en avant différents exemples d’utilisation. Elle y pointe une utilité pour de l’aide à la lecture, du doublage en langue étrangère ou encore dans le domaine de l’accessibilité.

Image : Pixabay.

L’entreprise est à la pointe en matière d’IA, et sans surprise, les résultats de Voice Engine sont bluffants. Le système se base sur une API Text-to-speech qui va lire un texte généré. Voici par exemple ce que cela donne pour de la traduction :

L’enregistrement de base.
L’audio généré en français.
En espagnol.
Et en mandarin.

La technologie peut également servir à redonner une voix à ceux qui l’ont perdue, par exemple suite à une maladie. OpenAI donne l’exemple d’une jeune patiente ayant perdu la fluidité de son élocution après une tumeur cérébrale vasculaire. Des scientifiques se sont basés sur un extrait audio d'une vidéo enregistrée dans le cadre d'un projet scolaire avant de la passer dans le modèle.

La voix de la patiente actuellement.
L’extrait utilisé.
Le résultat avec Voice Engine.

Apple dispose déjà d’une technologie similaire depuis iOS 17, qui est cependant beaucoup plus limitée : il faut lire des phrases spécifiques pendant une quinzaine de minutes, ce qui ne sera pas forcément possible pour tous les patients. Le modèle d’Apple ne fonctionne pour le moment qu’en anglais. On peut espérer voir des améliorations lors de la prochaine WWDC, où ce type d’IA devrait jouer un rôle important.

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Si le modèle n’est pas disponible auprès du grand public, il est déjà utilisé depuis quelque temps. C’est lui qui se charge de lire à haute voix les réponses de ChatGPT dans l’app, et qui double certains podcasts disponibles sur Spotify dans une langue étrangère. Les prix devraient être plutôt agressifs lors de sa mise sur le marché. TechCrunch a pu voir une grille tarifaire depuis effacée du site d’OpenAI annonçant qu’il faudra débourser 15 $ pour lire environ 162 500 mots. Pour cette somme, on aura de quoi faire lire un roman comme Oliver Twist (736 pages au format poche) avec encore un peu de temps supplémentaire. Cela correspond à peu près à 18 h d’audio.

Malgré ses bonnes performances, le modèle a quelques petits défauts. Le représentant d’OpenAI Jeff Harris a confié à TechCrunch que Voice Engine n’était pas très personnalisable : on ne pourra pas modifier le ton ou la vitesse de la voix. L’extrait de 15 secondes utilisé aura logiquement une grosse influence sur le résultat, et parler d’une manière enjouée donnera un ton similaire à l’intégralité des paroles.

La fonction « Voix personnelle » d’iOS 17.

Aucune date de déploiement public n’a été annoncée pour le moment, ce qui n’est pas très surprenant. Une telle technologie pourrait être utilisée pour de nombreuses arnaques ou pour faire dire n’importe quoi à n’importe qui. Il y a un an, Vice avait réussi à feinter le système d’authentification d’une banque à l’aide d’une voix générée par IA. La nouveauté est pour l’instant uniquement accessible à une poignée de partenaires.

L’entreprise promet de mettre le paquet sur la sécurité avant un potentiel lancement public, qui n’est pas à l’ordre du jour. Elle affirme avoir intégré un système de filigrane permettant de voir si un enregistrement est faux, et réfléchit à un système impliquant de lire des phrases aléatoires pour prouver que la personne dont la voix est clonée est bien présente. « Nous voulons nous assurer que tout le monde est satisfait de la manière dont ces technologies sont déployées, que nous comprenons les dangers qu'elles représentent et que nous avons mis en place des mesures pour y remédier », a déclaré Jeff Harris.

avatar Derw | 

@Freitag

Oui, mais la compétence est corrélée à l’âge…

avatar oomu | 

Ce genre de propos me fait une belle jambe quand la balle du flingue du drone piloté par une racaille m’explose la tête,,

Avant de finir d’agoniser je dirai « john… dit à mon épouse que la machine n’est pas fauti…ive… gre lgaaarg»

#HaitLeFlingueLeVendeurLeCriminelLePoliticienEtLeJeMenFoutiste

avatar UraniumB | 

@oomu

On peut responsabiliser toute chose, mais le fait est que ça reste des humains qui, dans ton exemple non pertinent, sont aux commandes. La justice s’applique sur les Hommes et non les machines. Voilà pourquoi on doit faire porter la charge sur les Hommes. Regarde pour le nucléaire, est-ce que les catastrophes potentielles d’une bombe nucléaire devrait faire arrêter la recherche dans ce secteur ? Bien sûr que non. C’est tout.

avatar House M.D. | 

Et le plus ironique c'est que dans les années 80 on en rêvait... et on le craignait déjà (voir Terminator, mais aussi WarGames et quelques autres pépites).

avatar Scooby-Doo | 

@SelPoivre,

« On peut s’interroger sur les intentions de ce type de tech. L’IA est en train de créer un univers de non droit. Je suis super nostalgique des années 80… »

Ah bon, les années 80 seraient supérieures question droit ?

🙃

avatar raoolito | 

@Scooby-Doo

perso j'ai pas compris le lien non plus mais la discussion qui s'en est suivie semblé être claire pour les intervenants alors je n'ose rien dire

avatar Scooby-Doo | 

@raoolito,

« perso j'ai pas compris le lien non plus mais la discussion qui s'en est suivie semblé être claire pour les intervenants alors je n'ose rien dire »

👍

Il n'y a rien à comprendre si ce n'est un sentiment passéiste !

C'était mieux avant !

La propagande et la manipulation de masse se faisaient de manière artisanale par une élite alors qu'aujourd'hui avec cette technologie, n'importe qui va pouvoir le faire.

Cela s'appelle “démocratiser” une activité et visiblement cela en gêne certains !

🤪

avatar Derw | 

@Scooby-Doo

« Cela s'appelle “démocratiser” une activité et visiblement cela en gêne certains ! »

Je confirme, puisque je fais partie de ceux gênés. Autrefois, le côté artisanal et élitiste avait 2 avantages : ils rendaient la manipulation relativement rare et potentiellement détectable. Ce ne sera bientôt plus le cas (comprenez : « les manipulations seront très fréquentes et complexes à détecter »). En ce qui me concerne, je sens que je vais devenir un paranoïaque de l’information : autrefois, mes compétences me permettaient d’avoir un esprit critique suffisant pour déjouer ces manipulations (enfin, j’avais la faiblesse de le croire). A l’avenir, je sais que je n’en serai plus capable et pour m’en protéger, je vais devenir un septique de tout, avec toutes les conséquences cela implique

avatar raoolito | 

@Derw

"le côté artisanal et élitiste"
j'ai envie de dire qu'avant c'était une science alors que de nos jours c'est directement les piliers de bars des cafés du commerce qui ont 1 million d'abonnés...

avatar Scooby-Doo | 

@raoolito,

« j'ai envie de dire qu'avant c'était une science alors que de nos jours c'est directement les piliers de bars des cafés du commerce qui ont 1 million d'abonnés... »

👍

Le plus effrayant dans cette affaire, c'est le million d'abonnés !

😁

avatar raoolito | 

@Scooby-Doo

oh que oui.. 👏🏽

avatar Scooby-Doo | 

@Derw,

Suffit juste de regarder le contenu de YouTube pour comprendre que volume et qualité sont trop souvent difficiles à concilier !

Les réseaux sociaux, je les fuis énergiquement.

« Autrefois, le côté artisanal et élitiste avait 2 avantages : ils rendaient la manipulation relativement rare et potentiellement détectable. »

Qui n'est pas tombé dans le panneau d'une publicité avec un modèle à la peau magnifique et parfaite ?

Alors que notre ami Photoshop était passé par là !

« En ce qui me concerne, je sens que je vais devenir un paranoïaque de l’information : autrefois, mes compétences me permettaient d’avoir un esprit critique suffisant pour déjouer ces manipulations (enfin, j’avais la faiblesse de le croire). »

Aux EUA, vous avez plus d'armes en circulation que d'habitants !

On peut éventuellement en conclure que c'est un pays dangereux.

Personnellement, je n'aimerais pas y habiter !

Et pourtant vous avez plus de 333 millions d'individus qui s'en accomodent plus ou moins !

Certains ne voudraient vivre nulle part ailleurs !

Conclusion : la nature humaine est toujours surprenante…

👌

avatar oomu | 

Je peux vous expliquer si vous le désirez

avatar raoolito | 

@oomu

les explications du Oomu, aussi palpitantes passionnantes et enjouées soit-elles, me sont elle-même souvent très obscures

avatar Scooby-Doo | 

@oomu,

« Je peux vous expliquer si vous le désirez ! »

Bonjour Fred, j'attends tes explications avec une certaine impatience !

😁

avatar SelPoivre | 

@Scooby-Doo

Peut être pas, mais sans aucun doute beaucoup plus tranquille coté régulation. Les choses vont trop vite en ce moment avec le terminator en construction

avatar Scooby-Doo | 

@SelPoivre,

« Peut être pas, mais sans aucun doute beaucoup plus tranquille coté régulation. Les choses vont trop vite en ce moment avec le terminator en construction. »

Et encore, nous n'en sommes qu'aux balbutiements !

Le reste à venir risque de carrément vous scotcher sur place…

😎

avatar fleeBubl | 

- Kermitator, vous dites ?
Mais non monsieur, pas du tout !
Ma grenouille d’amour à toujours raison !!

- c’était, les cochons dans l’espa-hasse-ce

- c’est fini, tu m’a demandé de te réveiller !

- ha ! Bah je peux me rendormir …

avatar Scooby-Doo | 

@fleeBubl,

“Les cochons dans l'Espace”, une œuvre télévisuelle puis cinématographique inestimable et absolument incontournable ! Une madeleine de Proust mais façon jambon tranché…

Souvenirs émus de Piggy la cochonne, du capitaine Jean Bondyork et du professeur Enrico Chonaille.

😁

À moins que ce ne soit une groupe de rock à la couenne charcutée !

🤪

avatar fleeBubl | 

🥁💥
Et les deux vieux au balcon, toujours perspicaces pour annoncer le générique de fin : une petite pépite
😂

https://youtu.be/eXeIxtI--uc?feature=shared

avatar zags | 

Intéressant d’un point de vue juridique : si quelqu’un détiendra un audio avec votre voix dont le contenu est illégal , la personne devra prouver que c’est vous qui l’avez dit et non une IA (puisqu’il y a la présomption d’innocence) … même si la personne qui a entendu votre voix est assermentée .
Intéressant .

(L’étape juste après par rapport au juridique ce sont les photos et vidéos de soit-disant vous. «On vous voit là sur la vidéo de la caméra de sécurité !» … « Prouvez qu’il s’agit réellement de moi»)

avatar Scooby-Doo | 

@zags,

La preuve par l'image, l'audio ou la vidéo va devenir difficile voire impossible !

On a déjà eu ce problème avec l'ADN aux USA !

Des innocents ont finis derrière les barreaux voire ont été exécutés par erreur ou volontairement (fraude au test ADN).

Moi :

Bonsoir Copilot, je cherche un exemple aux USA d'un expert en ADN qui avait falsifié les résultats pour accuser une personne innocente !

Edge Copilot:

Bonsoir ! Aux États-Unis, il y a eu des cas où des **erreurs dans les analyses ADN** ont conduit à des condamnations injustes et même à des exécutions. Voici quelques exemples marquants :

1. **Affaire du FBI** : Le **FBI** lui-même a reconnu des manquements dans ses analyses scientifiques. Des prisonniers ont été condamnés à mort en raison d'analyses erronées et de témoignages douteux. Certains ont passé des années dans le couloir de la mort pour rien. Heureusement, des mesures ont été prises pour améliorer la précision des analyses, notamment en utilisant l'ADN mitochondrial en plus des analyses au microscope¹.

2. **Damon Thibodeaux** : Il est la **300e personne disculpée** grâce aux tests ADN aux États-Unis. Son cas a été retracé dans le livre « L’Accusé » de John Grisham. Damon a été innocenté après **27 ans de prison**³.

3. **Innocence Project** : Cette organisation utilise des contre-expertises basées sur des logiciels probabilistes pour réanalyser les résultats de tests génétiques. Ils ont réussi à disculper des condamnés à mort en détectant des erreurs dans les analyses ADN⁴.

Ces exemples montrent à quel point il est crucial d'assurer la rigueur et la fiabilité des analyses ADN dans le système judiciaire. Les conséquences d'erreurs peuvent être tragiques pour les personnes accusées à tort.

Source : conversation avec Bing, 30/03/2024

(1) États-Unis : des innocents exécutés à cause des tests ADN du FBI. https://www.rtl.fr/actu/international/etats-unis-des-innocents-executes-a-cause-des-tests-adn-du-fbi-7777420849.

(2) USA – Des tests ADN ont prouvé l’innocence d’un 300e condamné. https://www.police-scientifique.com/revue-de-presse/tests-ADN-prouvent-l-innocence/.

(3) Réparer les erreurs judiciaires avec un brin d’adn. https://www.science-et-vie.com/article-magazine/reparer-les-erreurs-judiciaires-avec-un-brin-dadn.

(4) Criminologie : un test ADN peut-il faire accuser un innocent - Futura. https://www.futura-sciences.com/sante/actualites/genetique-criminologie-test-adn-peut-il-faire-accuser-innocent-60328/.

avatar PtitXav | 

@Scooby-Doo
Le problème des tests ADN est qu’ils sont utilisés à l’envers : un test ADN peut servir disculper sans problème mais ne devrait pas servir à accuser. On peut être sûr qu’un ADN n’est pas celui d’une personne. Mais on n’est jamais sur à 100% que c’est celui de quelqu’un. Et on est souvent loin des 100%.

avatar Scooby-Doo | 

@PtitXav,

« Le problème des tests ADN est qu’ils sont utilisés à l’envers : un test ADN peut servir disculper sans problème mais ne devrait pas servir à accuser. On peut être sûr qu’un ADN n’est pas celui d’une personne. Mais on n’est jamais sur à 100% que c’est celui de quelqu’un. Et on est souvent loin des 100%. »

👍

Je vous remercie de me le confirmer donc !

https://www.sciencedirect.com/science/article/abs/pii/S1246739120300385

Maintenant question subsidiaire : sont-ils au courant de ce problème aux EUA ?

🙃

avatar gillesb14 | 

C’est aussi un aspect qui s’est développé sans IA, certains crient aux « fake news » quand on leur dit la vérité, d’autres voient des Ukrainiens ou des Israéliens (rayer la mention inutile) derrière tous les crimes et méfaits.
Donc ce sera encore plus facile de dire « c’est un faux » quand une vidéo gênante ou bien un enregistrement de conversation viendra vous mettre en cause.
Bienvenue dans un monde on l’on ne pourra plus se fier à rien. les religions sectes et autres idéologies ont un boulevard devant elles.

avatar raoolito | 

@gillesb14

"d’autres voient des Ukrainiens ou des Israéliens"

vous auriez dit "russes ou chinois" j'aurai compris l'idée mais là...
vous voyez souvent passer des accusations de falsification ukrainienne ou israélienne ?
(sauf a se balader sur les sites russes ou affiliés et palestiniens ou affiliés)
c'est pas pour juger, juste que je n'en entend guère

avatar Freitag | 

@raoolito

Si l'on pense à la propagande russe ou antisémite, le propos est juste.

avatar Derw | 

@Freitag

Et même si on pense à la propagande ukrainienne et anti-gazaoui…

N. B. - avant de me faire traiter de pro-russe ou d’antisémite, je précise que je ne suis ni l’un ni l’autre. Je suis juste anti manichéisme…

avatar klouk1 | 

@raoolito

vous voyez souvent passer des accusations de falsification ukrainienne ou israélienne ?

Bah oui, les accusations de la Russie à propos de l’attentat revendiqué par l’EI

avatar raoolito | 

@klouk1

j'avais ajouté cela, regardez:

"(sauf a se balader sur les sites russes ou affiliés et palestiniens ou affiliés)"

avatar klouk1 | 

@raoolito

Sauf que là c’est l’état (le nabot du Kremlin) qui ment

avatar raoolito | 

@klouk1

ouiiii si vous voulez
Après si on remonte un peu le siècle passé, Russie et propagande, c'est un peu une lapalissade

avatar oomu | 

Je pense qu’innocemment vous venez de nous dire le genre de cercle que vous fréquentez sur internet. Et en bon oomu que je suis, je vous juge déjà.

(Mon internet m’a donné des exemples totalement différent)

avatar PixelPopz | 

Entendre certaines chanson avec la voix de Kurt Cobain c’est assez dingue et ça rend de ouf

avatar raoolito | 

@PixelPopz

mon préféré c'est Sinatra qui chante Billie Jean en version jazz

ya quand meme des trucs geniaux

avatar switch | 

La voix espagnole est atroce…

avatar Scooby-Doo | 

@switch,

« La voix espagnole est atroce… »

Effectivement mais la version Française ne fait pas “naturelle” non plus !

C'est une démo. Donc cela va très vite s'améliorer.

Après 15 $ pour lire environ 162 500 mots, c'est pas très onéreux !

Il me semble que Netflix a utilisé une IA pour faire automatiquement de l'audio description multilingue de ses très nombreuses productions !

Son catalogue comportait très peu de vidéogrammes avec audio description.

C'était un frein réel pour les personnes déficients visuels.

C'est ce genre d'application qui est le plus intéressant : doublage et audio description multilingue automatique…

https://bibersa.com/en/blog/what-is-audio-description/

😉

avatar f2 | 

C'est très impressionnant, mais c'est extrêmement dangereux, surtout dans les mains de personnes malveillantes. Ce genre d'IA ne doit pas exister, ou du moins ne doit pas être accessible à tout le monde.

avatar Seb42 | 

Mais quand vont arrêter les conneries ces boîtes de 💩

avatar Derw | 

@Seb42

J’ai 2 réponses possibles et aucune ne va vous plaire :
1. Jamais.
2. Quand l’humanité sera rentrée dans une forte récession technologique à cause de tous les dangers qu’elle s’évertue à créer depuis environ 200 ans…

avatar Seb42 | 

@Derw

Hum… je sais bien (j’ai la même conclusion)même si je préférerai la 2ème.

Mais quand je vois tous ces gens qui frétillent comme des gamins par les « prouesses » de ces monstres sont je l’espère candides et pas en possession de tous leurs moyens 😁.

Édit : la conclusion c’est pas moi qui l’ai écrit c’est chatGPT😉

avatar Scooby-Doo | 

@Seb42,

« Hum… je sais bien (j’ai la même conclusion)même si je préférerai la 2ème. »

🙃

Galilée et Giordano Bruno en ont souffert il me semble !

De la récession technologique à l'obscurantisme, il n'y a qu'un tout petit pas…

C'est d'ailleurs un élément de langage de la doxa des escrologistes !

😁

Le compostage de nos déchets alimentaires encouragé par nos grosses têtes produit lui aussi des gaz à effet de serre ! Mais moins qu'en décharge mais infiniment plus que dans une filière biogaz :

https://tri-facile.fr/le-compostage-produit-il-du-methane-pourquoi-le-compostage-aide-a-reduire-les-gaz-a-effet-de-serre/#:~:text=Le%20compostage%20produit-il%20du%20m%C3%A9thane%20%3F%20Oui%2C%20le,produisent%20du%20m%C3%A9thane%20et%20du%20dioxyde%20de%20carbone.

Pour rappel : la proto atmosphère était constituée de quasiment 100 % de gaz à effets de serre !

C'était il y a bien longtemps et l'homo sapiens venenosus n'était pas encore à l'ouvrage pour défendre soit disant la planète…

😁

avatar Seb42 | 

@Scooby-Doo

On n’est pas obligé de descendre à Galilée ou de parler de proto atmosphère pour parler de l’IA.
La proto atmosphère a existé oui mais invivable pour l’homme, il ne faut pas mélanger la vie de notre belle planète et la notre car si on est plus là ça ne servira à rien.
Ona commencé la 6eme extinction de la vie sur terre depuis sa naissance et il est impossible de savoir si l’homme en ressortira, la vie oui l’homme ??

Il y a des avancées technologique qui ont du bienfaits mais pas forcément toutes, la bombe atomique alors certes on peut dire qu’elle a mis fin à la seconde guerre mondiale mais sinon…

Je ne suis absolument pas contre l’évolution technologique bien au contraire c’est un domaine que j’adore creuser et admirer

Mais pour revenir à l’IA et ne pas s’égarer en quoi le reproduction d’une voix connue est bon pour l’avenir, est bon pour la société (si on prend en compte les côtés négatifs)
En quoi la création à la volée de vidéos ou de photos est une avancée pour quel aspect je parle évidement de l’évolution pour l’homme.
À part vivre dans un monde sans plus aucun repère qui sera virtuel uniquement car plus rien ne sera perçu comme réel.. c’est juste déprimant.
Par contre pour les évolutions concernant les diagnostiques de médecine , les avancées sur le maintien de la fusion par exemple, oui je suis pour, mais avec contrôle…

avatar Scooby-Doo | 

@Seb42 ,

« Par contre pour les évolutions concernant les diagnostiques de médecine , les avancées sur le maintien de la fusion par exemple, oui je suis pour, mais avec contrôle… »

Vous voyez que l'on peut trouver des côtés positifs !

Ce type de technologie va démocratiser par exemple l'audio description des vidéogrammes.

C'est un processus lent et artisanal qui demande de multiples étapes. C'est relativement coûteux et même dissuasif pour certains.

Netflix a prouvé il me semble que l'on peut automatiser tout cela grâce à ce type d'IA.

Offrir l'audio description sur un plus grand catalogue d'œuvres ne me semble pas une mauvaise chose.

Mais comme toujours, tout outil peut être détourné de son utilisation originale ou voulue.

C'est dans la nature humaine d'être créatif, dans le meilleur comme le pire.

👌

avatar smog | 

Si certains qui avaient des doutes sur les réels dangers de déstabilisation de la société par l'utilisation abusive de l'IA ont encore des doutes, j'espère qu'ils vont ouvrir les yeux.
Si en quelques temps on arrive à ces résultats, quid du futur proche où l'on ne distinguera plus du tout le vrai du faux ?
La seule solution - selon moi - est de faire intégrer des "filigranes" numériques pour identifier la source. Ce qu'ils disent faire. Un peu comme l'EPO avec des traceurs qu'il aurait été souhaitable que les labos intègrent dans leur production, pour éviter le détournement... Mais qu'ils n'ont jamais fait, eux.
On a beau dire que l'on s'est posé des questions "inquiétantes" à chaque avancée de technologie, force est de constater qu'aujourd'hui ça a des implications bien plus sérieuses et dangereuses qu'avant, surtout dans une société de plus en plus crédule.

avatar Baptiste_nv18 | 

@smog

Et une fois qu’ils auront ouvert les yeux, ça changera quoi ?
De plus votre histoire de filigrane ne fonctionnerait que pour les entreprises qui respectent les réglementations, une IA open source et votre filigrane ne sert plus à rien.

avatar smog | 

@Baptiste_nv18 : et bien ils arrêteront de se ficher de ceux qui appellent à une règlementation, ce sera déjà pas mal, non ?

avatar Mac1978 | 

La traduction en directe lors de conférences internationales par l’IA va devenir une réalité dans les deux-trois ans qui viennent.

L’association que je préside organise une conférence médicale en septembre 2025 en Suisse, 4 jours, 3 langues (français, allemand, anglais). 2 des 4 jours en ateliers dédoublés. Offre la moins chère € 38’000.— et la plus chère € 45’000.—, soit près de la moitié du budget de la conférence.

L’IA aura vraiment du bon.

avatar Derw | 

@Mac1978

« L’IA aura vraiment du bon. »

Sauf pour les traducteurs…

Et les journalistes, les graphistes, les musiciens, les médecins…

avatar Mac1978 | 

@Derw

Les traducteurs, les bons, reliront les textes produits par l’IA quand la qualité sera vraiment nécessaire.

Les médecins se baseront sur l’IA pour améliorer leurs diagnostics et le dialogue avec les patients.

Les journalistes amélioreront le « fact checking » et s’aideront de l’IA pour la rédaction ou la publication.

Etc…

Par contre pour les traductions basiques, il n’y aura plus besoin de payer € 200.— de l’heure deux traducteurs parce que la durée excède 30 min.

Pages

CONNEXION UTILISATEUR