Google présente une IA impressionnante pouvant générer une musique à partir d'une ligne de texte

Félix Cattafesta |

Alors que les avancées fulgurantes dans le domaine des IA de génération d'image ont été quelque peu mises au second plan par le phénomène ChatGTP, Google vient d'annoncer une nouvelle IA permettant de créer une musique à partir d'une poignée de mots. Si le résultat est bluffant, Google explique ne pas vouloir rendre public ce projet pour le moment.

Images générées avec DALL-E 2.

Dans un billet, la firme de Mountain View explique que son algorithme baptisé MusicLM peut générer « de la musique à 24 kHz qui reste cohérente pendant plusieurs minutes ». L'IA a été entraînée à partir de 5 millions de clips audio, soit 280 000 heures d'enregistrement. Il suffit d'entrer une commande (en anglais) pour obtenir un résultat bluffant. Voici quelques exemples :

La bande sonore principale d'un jeu d'arcade. Elle est rythmée et entraînante, avec un riff de guitare électrique accrocheur. La musique est répétitive et facile à mémoriser, mais avec des sons inattendus, comme des coups de cymbale ou des roulements de tambour.
Un synthé montant joue un arpège avec beaucoup de réverbération. Il est soutenu par des pads, une ligne de basse et une batterie douce. Cette chanson est pleine de sons synthétiques créant une atmosphère apaisante et incitant à l'aventure. Elle peut être jouée dans un festival pendant deux chansons pour une montée en puissance.

Si ces deux extraits ne font que 30 secondes, Google a également publié des morceaux allant jusqu'à 5 minutes. Un mode permet d'ajuster précisément le processus de création : on pourra par exemple réclamer une musique commençant de manière douce et devenant de plus en plus rythmée, ou une piste alternant différents styles. Le résultat sonne bien et les transitions sont correctes. Voici un exemple d'une minute dans lequel on a demandé une musique dont le tempo s'accentue toutes les 15 secondes :

L'IA peut également réinterpréter certaines mélodies, et il suffit d'envoyer un enregistrement (sifflé, fredonné ou joué) pour que l'IA vous la transpose dans un autre style. Un bête fredonnement de ‌Bella ciao prit à la va-vite avec le micro de votre téléphone peut devenir un chant d'opéra ou un solo de guitare. On pourra aussi lui demander de jouer une piste à l'aide d'un seul instrument ou de paramétrer le niveau du « musicien » créant le morceau (expert, débutant…).

L'enregistrement de Bella Ciao donné à MusicLM.
Sa reprise jazz.
En solo de guitare.

Google préfère pour le moment garder son projet privé et ne pas le proposer publiquement. Tout comme pour son IA de génération d'images Imagen, l'entreprise explique craindre les dérives d'une diffusion plus large. La question des droits d'auteurs se pose notamment : les sons peuvent reprendre du contenu sous licence et occasionnellement offrir un résultat très similaire. L'IA a été entraîné sur une grosse base de données avec de nombreux contenus protégés, ce qui incite Google à la prudence.

Si le résultat présenté est bluffant, il a aussi sans doute besoin d'un coup de polish. Les parties chantées sont pour le moment plutôt médiocres et il est bien difficile de discerner ce qui est dit (on comprend parfois quelques mots d'anglais mais il s'agit généralement de charabia). Google montre uniquement des morceaux concluants, et on peut imaginer qu'un paquet de brouillons décevants ont été mis de côté. Vous pouvez trouver tous les exemples mis en ligne par Google sur la page dédiée au projet.

Piste générée par MusicLM avec différents styles. La partie vocale est incompréhensible et sonne très robotique.

Cette présentation montre que Google souhaite mettre le paquet sur l'IA pour les années à venir. La sortie de ChatGPT a mis un coup de pression à l'entreprise : Sundar Pichai aurait réorganisé plusieurs groupes et demandé de mettre les bouchées doubles sur les projets liés à l'IA. Google n'est pas seul sur le créneau de la génération de musique : plusieurs projets similaires sont déjà accessibles à tous depuis quelques temps, et OpenAI (ChatGPT) planche sur une IA baptisée Jukebox.

Tags
avatar DrStax | 

@marc_os

L’IA actuel c’est ça. Dans le cas contraire l’IA n’existe pas encore vraiment et c’est un terme employer à tout va car ça donne bien.

avatar occam | 

Il est intéressant de noter que la version soi-disant jazz de « Bella Ciao » est la moins convaincante. Les algorithmes semblent encore achopper sur des structures piecewise aléatoires ou incomplètement algorithmiques.
Par contraste, visualisation et analyse fractale d’un morceau de John Coltrane :
https://www.youtube.com/watch?v=QlV4CqT1vtw

avatar DahuLArthropode | 

@occam
Merci!

avatar fleeBubl | 

@occam

Sympathique visualisation 🧑‍🦯

avatar marc_os | 

@ occam

Merci !
Je serais curieux de voir ce que donne la visualisation des trucs produits par Google...

avatar melaure | 

C’est l’outil parfait pour toutes ces émissions de pseudos artistes fabriqués par les chaines …

avatar Change | 

@melaure

Ne soyez pas mais disant le rocher ne tombe jamais loin de la poutre qui l'a vu naître 🎶

avatar lmouillart | 

Ou pour des jeux vidéo avec génération procédurale améliorée de l'environnement et de la musique. Ou une génération de l'environnement sonore en fonction du personnage créé et expérience acquise.

avatar noxx09 | 

Ouais... Enfin au delà de la performance technique cela fait de musique sans aucun intérêt.

avatar vince29 | 

> cela fait de musique sans aucun intérêt.

Il y a un marché pour ça.

avatar PrPrssR | 

Eh bé, on n'y est pas encore ! 🤣

avatar trouaz | 

La musique d'ascenseur a encore de beaux jours devant elle :)

avatar roccoyop | 

J’aurais pas utilisé le terme de « bluffant », même s’il y a de la prouesse derrière. Pour l’instant je ne pense pas que ce soit exploitable, peut-être à la limite dans les ascenseurs.

avatar iPop | 

@roccoyop

Vous vous souvenez de « dur, dur d’être un bébé «  ? C’était la musique de l’avenir.

avatar roccoyop | 

@iPop

Clairement ! Quel cauchemar ! Je l’avais effacé de ma mémoire. 😆

avatar R-APPLE-R | 

@iPop

« Vous vous souvenez de « dur, dur d’être un bébé «  ? C’était la musique de l’avenir »

Ça à changer aujourd’hui c’est : dur, dur d’être un r’traités 😈

avatar Dr. Kifelkloun | 

Alors je prendrai l'escalier !

avatar roccoyop | 

@Dr. Kifelkloun

😂

avatar marc_os | 

C'est moi ou le son des voix et cuivres est nasillard ? On dirait du son sorti d'un vieux gramophone !
Sinon, pas mal pour de la musique d'ascenseur.

PS: Je viens seulement de lires les autres commentaires, et côté ascenseur on semble être d'accord. 😎

avatar hirtrey | 

Christina and the queen va prendre une licence 😂

avatar Mike Mac | 

En fait, plus que les ouvriers, ce sont les cols blancs qui se mettent à trembler pour leurs travail.

Avocats, notaires, journalistes, plumitifs de tous poils, conseillers en conseil, éminences grises surpayées à spolier le travail des autres en se le réappropriant, producteurs intensifs de PowerPoints ultra coûteux à la McKinsey…

Intelligence artificielle et blockchain, seuls les meilleurs survivront à l’hécatombe qui se profile.

Terminator pourrait chanter :

Je dois fermer mon officine.
C’est la faute à Cyberdine.

avatar vicento | 

@Mike Mac

Pas mal 👿 😊
d’accord a 💯% avec toi.
Pas mal de cartes vont être re battues avec les IA dans les années à venir.
Et même si ces exemples « musicaux » présentés dans l’article font plus peur 🤮 qu’envie ça va sûrement évoluer de la même façon que l’on produit aujourd’hui du texte et des visuels de qualité grâce aux IA alors qu’il y a moins de 2 ans on en était très loin.

avatar debione | 

@vicento:
A voir... On nous disait (enfin surtout un, mais c'était allègrement repris) en 2015 que la conduite autonome par les IA c'était pour 2016... Qui aurait pensé en 2015 qu'en 2023 on en serait si peu évolué (à peine plus qu'en 2015 en fait), et que l'on se dirait: Ouais, la conduite complètement autonome c'est encore utopiste?
Les réelles évolutions entre le dragon dictate de 2000 et les retranscriptions des softs actuels? en quasi une génération humaine, à part la reconnaissance vocale un peu meilleure, rien de ce que l'on pouvait s'imaginer ne s'est produit (les softs sont toujours infoutu de faire une ponctuation d'eux-même par exemple, font toujours des fautes de grammaires, font des proposition syntaxique fausse etc etc).

Je prends souvent l'exemple de l'excellent "2001 Odyssée de l'espace" comme vision geek et optimiste. 33 ans plus tard, on était très loin d'un Hal, 45 ans après on y est mais alors vraiment pas (ni dans les ordinateurs, ni la conquête spatiale, rien).
Ou alors on peut prendre une vision bien plus réaliste à la "Green Soylent" qui se passe en 2022 (tourné en 73) et qui était finalement bien moins loin dans la réalité...

Je ne pense pas que les cartes vont être "rebattue", la chose la plus proche qui me vient à l'esprit c'est la robotisation des chaines de production, on a du s'adapter, cela à bougé des lignes, mais au final, cela n'a pas tant changé que du temps de Ford.

avatar iPop | 

@debione

« mais au final, cela n'a pas tant changé que du temps de Ford. »

C’est surtout que Ford n’a pas évolué, ni changé mais Tesla a fait un bon de géant.

avatar iPop | 

@debione

« On nous disait (enfin surtout un, mais c'était allègrement repris) en 2015 que la conduite autonome par les IA c'était pour 2016 »

C’est littéralement impossible, il a fallu 5 années pour. Que l’industrie s’adapte à la crise de 2009, ce qu’elle n’a pas fait. Elle s’est bornée à rajouter des bidules électronique dans les voitures. La conduite autonome arriva bien plus tard grâce à Tesla et ce n’était qu’un début.

avatar iPop | 

« Et ils inventeront la musique qui finira d’assécher nos cœurs »
La vie c’est la musique et versi-versa.

avatar Pépinlelutin | 

@ iPop :
"La vie c’est la musique et versi-versa."

[Refrain]
… Mais tu dis (mais tu dis)
Que le bonheur est irréductible
Et je dis (et il dit)
Que ton espoir n'est pas si désespéré
A condition d'analyser
Que l'absolu ne doit pas être annihilé
Par l'illusoire précarité de nos amours
Destituée
Et vice et versa (et vice versa)…

Et vice et versa - Les inconnus - 1992.

C'était trop tentant 🤣😋

avatar iPop | 

@Pépinlelutin

👍🤩

avatar debione | 

Alors ils faut un début à tout, mais mon Dieu que c'est mauvais, sans saveur, dénué de toutes émotions... Même les pires soupes servies par les chaines musicales sont très largement au-dessus...
Après je sais pas si cela va aller si vite que l'on ne pense, car finalement, au moment de la sortie de dragon dictate, je ne pensais pas que cela aurait si peu évolué en 25 ans (les logiciels sont toujours incapable de poser une simple ponctuation en milieu de phrase d'eux-même, font encore plein de fautes d'accords, ne comprennent rien à l'argot, il n'y a que la reconnaissance vocale qui se soit grandement améliorée, on ne doit plus lire un texte avant de commencer, mais l'apprentissage se fait au fur et à mesure, donc on est pas encore même dans la reconnaissance au point ou j'imaginais que l'on en serait il y a 25 ans)

avatar DidTrebor | 

@Debione
"Alors ils faut un début à tout, mais mon Dieu que c'est mauvais, sans saveur, dénué de toutes émotions... "
Tout comme... Ha ! Non je cite pas de noms !

avatar debione | 

@DidTrebor:

"Tout comme... Ha ! Non je cite pas de noms !"

Inutile, ou alors citez les gens qui ressentent/ne ressentent pas... ;)
Une musique (un artiste) ne crée aucune émotion. C'est l'auditeur qui crée ou pas cette émotion (en fonction d'un million de paramètre et pas seulement 3 ou 4).
J'écoute certains trucs horribles (merci Lorenzo et ton oiseau qui aimait un peu trop la cocaïne) actuellement, juste parce que mon gamin les écoute et de fait je rattache une grosse émotion positives à ces .... daubes :/

avatar DidTrebor | 

@debione
"Une musique (un artiste) ne crée aucune émotion."
Aucunement d'accord ! Un artiste "peut" engendrer de l'émotion sans qu'on ait une reférence.

avatar Cric | 

Dans une certaine mesure, EON de Jean-Michel Jarre fait déjà de la musique « artificielle »

avatar Malvik2 | 

C’est quoi la finalité du truc ? On devient tous handicapés têtes bras et jambes jusqu’à finir par…?!

avatar suredj | 

J’ai peur, c’est normal ?

avatar ⚜Dan | 

@suredj

Faut pas avoir
Peur, c’est la suite des choses qu’on le veuille ou non

avatar ⚜Dan | 

C’est exactement comme NieR Automata mais en vrais lol
Dans 100 ans les androïdes vont remplacer les humain et pas que la musique 🦾

avatar Marius_K | 

Je trouve dans l'ensemble ça franchement dissonant...
Il me semble que l'on pourrait obtenir un bien meilleur résultat si l'IA utilisait des boucles comme les nombreuses que l'on peut trouver dans GarageBand ou d'autres logiciels du genre.

avatar debione | 

@Marius_K:

Mais du coup elles ne "créeraient" rien, elles réinterpréteraient...
Utiliser des samples, même en les modifiant un peu, c'est faire des covers, ce n'est pas de la création c'est de l'interprétation...
Un peu la même différence entre un Dj qui passe des vinyles et le type qui à créer le son sur le vinyle...

Mais en effet, c'est très dissonant, au point ou je me demande pourquoi ils ont montré cela, c'est pas une super pub je trouve...

avatar narugi | 

Après les développeurs, les graphistes, les compositeurs en PLS. 😂
On nous avait promis des métiers d’avenir. Dans 20 ans ça n’existe plus.

avatar debione | 

@narugi:

Euh, ils peuvent dormir encore bien longtemps au vu de ce qui est montré...

avatar narugi | 

@debione

Dans 20 ans, ça ne signifie donc pas demain à priori. Mais vu la promesse de l’outil dans 20 ans je n’imagine même pas les progrès. Même dans 5 ans on sera déjà surpris de l’avancée de cette IA

avatar Mdtdamien | 

Le son est vraiment pourrie ? C’est pour masqué les lacunes.
Autant les IAs dans la photo, et chatGPT peuvent convaincres, autant là je trouve le résultat très décevant.

avatar andr3 | 

Où est la créativité artistique (dans le cas de MusicLM) ou littéraire avec ChatGPT ?

avatar debione | 

@andr3:

Il n'y en a pas simplement...

avatar debione | 

Cette impression d'être face à Musk qui m'explique que la conduite autonome c'est pour il y a 6 ans...
On est encore très loin de quelque chose... Comme dans la conduite autonome...

C'est rigolo cette masturbation subite ces derniers mois sur l'IA... Quelqu'un aurait-il quelque chose à vendre?

avatar pariscanal | 

C est immonde comme les images 😂

avatar Mike Mac | 

Pour autant qu’une intelligence artificielle ait le QI d’une huître, elle ne sait pas les ouvrir.

Rassurant, non ?

avatar Oncle Sophocle | 

@Mike Mac

Et si l'algo se plante, on arrive au QI d'une brique ?

avatar arlonjohn | 

C’est affreux mais flippant.

Bon en tant que compositeur qui vit de sa musique (assez grassement) je ne suis absolument pas inquiet par ce genre d’outils.
Déjà, je n’ai pas besoin qu’un outil me ponde des accords et des mélodies. Je peux déjà faire 2 à 3 morceaux par jour si il le faut.
Et le temps de trouver la bonne mélodie avec les prompts, ça me prend 5 minutes au piano.

Une chose que je n’arrive pas a comprendre c’est pourquoi le moteur de rendu MusicLM de Google est limité à 24 kHz … c’est assez curieux.

Et contrairement à Midjourney je pense que la génération à base de statistiques pour générer de la musique ce n’est pas du tout la même chose que pour de l’image.

Déjà une image est statique. Une musique par définition c’est mouvant et séquentiel.
Pour comparer, on peut imaginer une musique comme une suite d’images générées par Midjourney.

Une image générée par Midjourney est crédible mais que se passerait il si on demandait à Midjourney une vidéo ? On verrait plein d’artefacts degueux entre chaque image, et comme il en faut minimum 25 par secondes…

Ça reste impressionnant en l’état leur truc mais la qualité n’est absolument pas au rendez vous.
Je n’arrive pas à comprendre comment le son des instruments est simulé. Est ce que leur IA génère d’abord des mélodies et des accords qui sont ensuite interprétés par des synthétiseurs de basse qualité ou est ce que l’IA génère directement des « waveform » comme quand on ouvre un fichier wav dans un analyseur de spectre…

Au final les professionnels comme moi n’utiliseront jamais cet outil. On est déjà assez rapide et surtout les « clients » (j’aime pas ce mot ) cherchent aussi avant tout un rapport humain et amical avec un compositeur.

Par contre le jour où une IA arrive à sortir des morceaux qualitatifs en terme d’écriture et surtout d’interprétation et de qualité de production , on pourra commencer à s’inquiéter mais mon intuition me dit que ça va être très difficile pour eux techniquement.

Pour faire de la musique on utilise soit de vrais instruments, soit des simulations virtuelles de vrais instruments (mais ce sont des logiciels qui pèsent des GOs de données… une IA comme celle de Google ne possède pas ces logiciels) soit des synthétiseurs logiciels ou hardware. Ces derniers ont un son bien particulier, chaque compositeur choisi précisément la marque et quel model de synthé utiliser pour un morceau donné

Une IA est incapable de discerner ca. A moins qu’on lui ait appris mais la encore : comment une IA peut elle apprendre simplement en écoutant une base de données de fichiers stéréo ? Ce sont des waveforms, il faudrait le matériau de base c’est à dire les sessions de travail des producteurs de musique pour savoir précisément quel instrument est utilisé, quel synthé, quel instrument virtuel…
Les humains qui entraînent cet IA n’en savent pas forcément plus… même si on imagine qu’ils font appel à des génies de la musique.

C’est pour cela que je pense qu’une IA à base de statistiques comme Chatgpt ou MusicLM va vite montrer ses limites pour la zik.

Il faut reconnaître que midjourney est bluffant mais c’est pas du tout comparable avec générer une musique.
Avec une image on peut camoufler des imperfections.
Générer un violon solo ou une guitare électrique avec une IA et ça sonne tout de suite cringe.

Pages

CONNEXION UTILISATEUR