Voice Engine : le nouveau modèle d’OpenAI peut cloner une voix à partir de quelques secondes d’enregistrement

Félix Cattafesta |

OpenAI vient de lever le voile sur un nouveau modèle d’IA aussi intrigant que dangereux : Voice Engine, qui peut cloner une voix de manière crédible en se basant sur un extrait de seulement 15 secondes. Dans son billet de présentation, l’entreprise y met en avant différents exemples d’utilisation. Elle y pointe une utilité pour de l’aide à la lecture, du doublage en langue étrangère ou encore dans le domaine de l’accessibilité.

Image : Pixabay.

L’entreprise est à la pointe en matière d’IA, et sans surprise, les résultats de Voice Engine sont bluffants. Le système se base sur une API Text-to-speech qui va lire un texte généré. Voici par exemple ce que cela donne pour de la traduction :

L’enregistrement de base.
L’audio généré en français.
En espagnol.
Et en mandarin.

La technologie peut également servir à redonner une voix à ceux qui l’ont perdue, par exemple suite à une maladie. OpenAI donne l’exemple d’une jeune patiente ayant perdu la fluidité de son élocution après une tumeur cérébrale vasculaire. Des scientifiques se sont basés sur un extrait audio d'une vidéo enregistrée dans le cadre d'un projet scolaire avant de la passer dans le modèle.

La voix de la patiente actuellement.
L’extrait utilisé.
Le résultat avec Voice Engine.

Apple dispose déjà d’une technologie similaire depuis iOS 17, qui est cependant beaucoup plus limitée : il faut lire des phrases spécifiques pendant une quinzaine de minutes, ce qui ne sera pas forcément possible pour tous les patients. Le modèle d’Apple ne fonctionne pour le moment qu’en anglais. On peut espérer voir des améliorations lors de la prochaine WWDC, où ce type d’IA devrait jouer un rôle important.

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Accessibilité : comment iOS 17 peut créer une copie de votre voix

Si le modèle n’est pas disponible auprès du grand public, il est déjà utilisé depuis quelque temps. C’est lui qui se charge de lire à haute voix les réponses de ChatGPT dans l’app, et qui double certains podcasts disponibles sur Spotify dans une langue étrangère. Les prix devraient être plutôt agressifs lors de sa mise sur le marché. TechCrunch a pu voir une grille tarifaire depuis effacée du site d’OpenAI annonçant qu’il faudra débourser 15 $ pour lire environ 162 500 mots. Pour cette somme, on aura de quoi faire lire un roman comme Oliver Twist (736 pages au format poche) avec encore un peu de temps supplémentaire. Cela correspond à peu près à 18 h d’audio.

Malgré ses bonnes performances, le modèle a quelques petits défauts. Le représentant d’OpenAI Jeff Harris a confié à TechCrunch que Voice Engine n’était pas très personnalisable : on ne pourra pas modifier le ton ou la vitesse de la voix. L’extrait de 15 secondes utilisé aura logiquement une grosse influence sur le résultat, et parler d’une manière enjouée donnera un ton similaire à l’intégralité des paroles.

La fonction « Voix personnelle » d’iOS 17.

Aucune date de déploiement public n’a été annoncée pour le moment, ce qui n’est pas très surprenant. Une telle technologie pourrait être utilisée pour de nombreuses arnaques ou pour faire dire n’importe quoi à n’importe qui. Il y a un an, Vice avait réussi à feinter le système d’authentification d’une banque à l’aide d’une voix générée par IA. La nouveauté est pour l’instant uniquement accessible à une poignée de partenaires.

L’entreprise promet de mettre le paquet sur la sécurité avant un potentiel lancement public, qui n’est pas à l’ordre du jour. Elle affirme avoir intégré un système de filigrane permettant de voir si un enregistrement est faux, et réfléchit à un système impliquant de lire des phrases aléatoires pour prouver que la personne dont la voix est clonée est bien présente. « Nous voulons nous assurer que tout le monde est satisfait de la manière dont ces technologies sont déployées, que nous comprenons les dangers qu'elles représentent et que nous avons mis en place des mesures pour y remédier », a déclaré Jeff Harris.

avatar Seb42 | 

@Mac1978

Je me permets de compléter

« Les traducteurs, les bons, reliront les textes produits par l’IA quand la qualité sera vraiment nécessaire. »

Ça c’est possible aujourd’hui, sauf que l’IA de toute façon traduira un texte qu’elle a générée elle même donc autant dire que le traducteur n’y comprendra pas mieux qu’elle.

Finalement le gain est pour qui ? On parle de quel pourcentage ? Ça faisait travailler des gens qui ont pris le temps d’apprendre une langue, qui leur a permis de se développer.

« Les médecins se baseront sur l’IA pour améliorer leurs diagnostics et le dialogue avec les patients. »
Pourquoi j’irai faire confiance à mon médecin si l’IA le dit, j’aurai bien plus confiance en l’IA que lui.

Au final, on ne croira plus nos médecins et plus de confiance en leur diagnostique.
Encore une fois des hommes se sont élevés à un niveau intellectuel et de compréhension au dessus de la moyenne et ce sont des gens comme ça qui vont disparaître y profit de l’IA.

« Les journalistes amélioreront le « fact checking » et s’aideront de l’IA pour la rédaction ou la publication ».

Avec l’IA personne (boite) ne voudra payer le journaliste car il n’y aura pas d’argent à lui donner.
Personne ne croira (croit) plus en aucune information, car truquée et montée de toute pièce par l’IA suivant comme elle sera entraînée.

Donc au final l’IA n’en aura rien à foutre de l’homme elle en a juste besoin pour se développer au début.
Par contre tous ces métiers qui ont de la « valeur » qui seront détruits le seront au profit d’une population sclérosé par internet et les réseaux sociaux sans la moindre réflexion sur ce qu’ils voient mais le buzz et le fait divers à foison

Elle est là pour déshumaniser, et il y en a qui applaudisse et la pousse dans cette direction et bien c’est aussi triste que le dérèglement climatique.

avatar passingphantom | 

Ça me fait penser à l'humoriste Alex Visorek qui, sur RTL fait raconter des horreurs au président du sénat Gérard Larchet. Bien sûr, il précise après qu'il a utilisé une IA en fin de chronique, mais le résultat est vraiment dingue, et effrayant.

avatar Mike Mac | 

@Fennec72,

« On se souvient encore du fameux « pare-feu Open Office » d’une ministre française il y a quelques années. 😂 »

Le personnel politique est resté médiocre.

Aujourd’hui, nous avons Mme Sarah El Haïry, Ministre déléguée en charge de l'Enfance, de la Jeunesse et des Familles, qui répète dans une intervention qu’il ne faut pas “jeter l’eau propre“ au lieu de “jeter l’opprobre“.

Laver l’eau avant de laver le linge ?

avatar Mike Mac | 

Indiana Jones V sortira sans Harrison Ford mais avec lui quand même. Un peu comme le premier quart du IV.

James Dean va pouvoir faire son retour, éternel jeune homme.

Elvis Presley sera enfin au générique dans un film avec un vrai scénario.

Marylyn Monroe tournera dans “Certains l’aiment réssucitée“…

avatar Scooby-Doo | 

@Mike Mac,

« Indiana Jones V sortira sans Harrison Ford mais avec lui quand même. Un peu comme le premier quart du IV. James Dean va pouvoir faire son retour, éternel jeune homme. Elvis Presley sera enfin au générique dans un film avec un vrai scénario. Marylyn Monroe tournera dans “Certains l’aiment réssucitée”… »

👍

On a déjà eu un avant-goût dans la troisième trilogie de Star Wars, celle made in Disney, d'ailleurs la plus mauvaise !

À mon avis, seule la deuxième trilogie mais la première sortie car il faut suivre, est vraiment sympa !

« L'Empire contre-attaque » est le meilleur épisode avec en plus de l'humour…

😁

avatar yann7533 | 

C’est super chaud. Si qlqun mal intentionné parvient à cloner la voix d’une personne il peut soutirer de l’argent à l’un des membres de la personne pour qui la voix a été clonée. Il va falloir redoubler de prudence.

avatar DG33 | 

@yann7533

Soutirer de l’argent à une jambe, quel pied !
😉

avatar cherbourg | 

La version espagnole prononcée avec un gros accent US…

Pages

CONNEXION UTILISATEUR