MusicLM, la nouvelle IA de Google, a transformé nos idées en musique

Félix Cattafesta |

Google a profité de sa grande conférence annuelle pour déployer une bêta de MusicLM, son modèle permettant de générer une musique à partir d'une description textuelle. Le projet a été présenté au mois de janvier et est désormais accessible sur invitation. Il est possible de s'inscrire sur la plateforme d'expérimentation avec l'IA de Google, qui devrait s'enrichir d'autres démos du même genre par la suite.

L'interface de la démo.

La démo de MusicLM fonctionne de manière très simple : une boîte de texte permet d'entrer son idée, et il suffit de valider pour laisser l'algorithme générer deux pistes. Les résultats ne prennent ensuite qu'une poignée de secondes à apparaître et il n'y a pas de limitation au nombre d'essais. Les commandes doivent être entrées en anglais, mais le modèle semble comprendre le français.

Le résultat est bluffant pour certaines commandes, plutôt bizarre sur d'autres. J'ai joué un peu avec différents styles, et le résultat dépend surtout de la commande rédigée. Google recommande d'être très descriptif et d’indiquer l'ambiance, l'atmosphère ou l'émotion voulue. L'entreprise précise que les sons d'instruments électroniques ou classiques offrent un meilleur rendu. Voici quelques exemples :

Une musique calme pour m'aider à me détendre pendant mes révisions. Le rythme est assez simple et lent. Il n'y a qu'un piano.
Bande sonore d'un jeu vidéo. Musique entraînante pour un niveau sous-marin. Le rythme est facile à mémoriser. Sonorités aquatiques.
Morceau funky avec un rythme fort et dansant avec une ligne de basse. Une mélodie entraînante provenant d'un clavier ajoute une couche de richesse et de complexité à la chanson.
La musique enjouée d'une taverne médiévale pour une soirée jeu de rôle.

Il est possible de donner un petit trophée à la piste la plus convaincante, un choix que Google utilisera pour améliorer son modèle. L'expérience peut fonctionner via navigateur sur iOS, mais est aussi disponible en passant par une app dédiée (qui n'est pas encore sur l'App Store français). Un bouton permet de télécharger ses créations au format .mp3 pour les partager.

Évidemment, Google a mis en place quelques limitations pour éviter les abus. On ne pourra par exemple pas demander d'imiter le style d'un artiste, et les pistes produites ne durent que 20 secondes. Le modèle ne génère pas de voix, ce qui n'est pas vraiment surprenant : la technologie ne semblait pas du tout au point à ce niveau lors de la première présentation en début d'année.

Exemple de Google d'une piste générée par MusicLM avec différents styles. La partie vocale est incompréhensible.

Un déploiement plus poussé n'est sans doute pas à l'ordre du jour, ce type d'IA posant de nombreuses questions légales. Le système a été entraîné sur une énorme base de données sans tenir compte du droit d'auteur. En janvier, Google expliquait que les sons pouvaient reprendre du contenu sous licence et occasionnellement offrir un résultat très similaire.

Cette démo est publiée alors que le débat sur la musique générée par IA commence à prendre de l'ampleur. Le label Universal Music s'est alarmé de l'utilisation de telles technologies, de plus en plus accessibles. Récemment, un faux duo entre les artistes Drake et The Weeknd est devenu viral, faisant des millions de vues sur les différentes plateformes. Spotify et Apple Music ont commencé à faire le tri sur leurs serveurs.

avatar xDave | 

🤦🏽‍♂️

Non mais vous êtes sérieux ?
Ça n’a rien à voir avec de la musique ça.
Ce n’est meme pas de la soupe, C’est de la merde!
(JP Coffe)

avatar iftwst | 

@xDave

Certes.

Mais Soprano a fait sa fortune avec ce genre de soupe auditive 😉

avatar Insomnia | 

@iftwst

C’est pas plutôt JuL 😅

avatar atom 06 | 

@Insomnia

0 rapport

avatar Insomnia | 

@atom 06

Bah alors on aime pas quand on tape sur son chanteur préféré 🫥.
Faudrait se décoincer et apprendre l’humour 😅

avatar atom 06 | 

@Insomnia

Non sur tout ce que tu viens de dire, les instrumentales montrées dans l’article n’ont même pas de rapport avec le rap c’est tout

avatar Insomnia | 

@atom 06

Faudrait peut être comprendre que c’était de l’humour 😅

avatar raoolito | 

@xDave

c’est pourtant ce qu’on entend souvent. c’est con mais de ka musique d’ascenseur c’est ca en boucle 😆

avatar xDave | 

@raoolito

Faut pas déconner quand même.
😃

Je me flingue direct si j’entends un truc pareil bloque dans un ascenseur.

avatar Dustykid26 | 

@xDave

Mais carrément. C’est affreux..

avatar TDBI | 

@xDave

Dans un ascenseur, on fait tellement d'autres choses 😅

avatar xDave | 

@TDBI

Haha vous avez de la chance de ne pas avoir été bloqué seul 😉

avatar iPop | 

Oui…ça reste toujours sans vie.

avatar raoolito | 

c’est impressionnant quand meme.
l’image, le texte, la musique, le code, autre…
certes à chaque fois les spécialistes trouveront ce qui ne va pas mais plus on avancera plus ce sera pointu et surtout, ben ca suffira pour de très nombreuses circonstances

avatar xDave | 

@raoolito

Non

avatar oomu | 

@raoolito

bof,

non, ça ne va pas de soi.

avatar raoolito | 

@oomu

que pour les ascenseurs cette musique ne suffirait pas :) ?

avatar Max101 | 

Je trouve ça très impressionnant
Certes ce n'est pas parfait etc etc m'enfin bon avec un peu de retouche ça fait de la soupe commerciale passe partout (et je pense qu'un non connaisseur ne fera pas la différence).
C'est qu'une question de temps pour que ça se perfectionne
Peut être que ça existe déjà, mais j'imagine bien qu'en sifflotant un air, ils nous sortiront une symphonie sur ce thème en 1mn!

avatar bloukamov | 

Ah le dernier, ça pourrait être du Kim Dracula !
https://youtu.be/aMcpF8uLpD4

avatar rikki finefleur | 

impressionnant et de qualité pour un robot.

avatar Seb42 | 

Tellement déprimant

avatar madaniso | 

Les commentaires 🍿

Ici dès qu’on parle argent ou économie, on entend les voix des membres de gauche se lever.

Par contre le côté snob genre moi j’écoute de la vraie musique, pas de soucis de condescendance…

Kraftwerk est l’exemple parfait, des mélodies très simples et pourtant ils ont influencé des générations de musiciens

avatar xDave | 

@madaniso

Tu dis n’importe quoi.
Kraftwerk c’est a des années lumières de ça.

avatar oomu | 

@madaniso

bof

y a t'il un respect des droits des travailleurs et de la propriété intellectuelle des artistes dans ces outils d'automatisation conçus à partir du corpus des grands éditeurs ?

Continuons de faire fonctionner l'Industrie de la Musique en écoutant de la VRAIE musique et non de la vulgate d'automate !

#MembreDeGaucheSnobCondescendantQuiVientDeSeLever

(ha et, regardez la série télé Carole And Tuesday, qui parle justement des IAs contre la chanson :) )

avatar oomu | 

@madaniso

et non, Kraftwerk ça reste encore quelque chose de travaillé et millimétrée, d'artistique.

cependant tout le coté de travail du son, la production sonore, de kraftwerk, oui une IA permettra d'automatiser la génération d'un son soigné et étrange. Encore faut il une Volonté.

avatar PascalC6706 | 

merci de ne pas ranger tout le monde dans une boite
je suis de gauche(pas celle qui appelle à l'émeute toutes les 10 minutes) mais pas fermé à la techno ni à rien d'ailleurs (et être anti tech ce n'est pas être de G ou de D, ça n'a tt simplement rien à voir)
On ne peut pas faire l'autruche l'IA c'est maintenant pour le meilleur et le pire et il faudra intégrer cette nouvelle technologie , il y aura sans doute des choses intéressantes à créuser. je trouve le principe brillant ca m'interpelle.

avatar klouk1 | 

Impressionnant mais pas impressionnant. Des séquences de 20 secondes ne signifient rien. Qu’en est-il du développement de la séquence ? C’est ça le plus important et le plus intéressant

avatar xDave | 

@klouk1

Ah mais pour une symphonie de deux heures avec un orchestre on est mal barré

Et c’est tant mieux

Où on parle de Groove ? D’harmonie?
Ou juste de goût ?

Partant du principe que les personnes derrière ce genre de choses ne savent déjà pas de quoi elles parlent, n’ont aucun talent artistique (et sont jaloux) et ne pense que par le profit. Ça donne ce résultat.

L’AI a un intérêt pour certaines choses.
Certainement pas pour ça

avatar Orus | 

20 sec ? Allez au revoir

avatar Yves SG | 

Wouaou, ca c’est de l’innovation 😂
Merci Google a décidé d’utiliser l’IA intelligemment et avec une vraie valeur ajoutée 🙄

avatar Florian Wallez | 

Le problème sera que lorsque ça sera amélioré, ça suffira pour plein d’usages et pour beaucoup (trop) de personnes pas trop regardantes, mais les professionnels de la musique en pâtiront autant que ceux qui veulent de la qualité et de l’originalité.

avatar oomu | 

@fwally

bof.

dans les années 80s, mes livres de vulgarisation technologique annonçait des avions stratosphérique et des immeubles tout-écolo

2023, y a rien de tel, par contre on peut partager des photos de chats facilement et se disputer avec un ce @&# de &!$ d'australien que je verrai jamais mais qui a dit un truc qui me plait po...

alors, comment VOUS vous pouvez être si sur de connaître l'avenir ?

si ça se trouve, vous n'êtes qu'un humain avec deux yeux comme les 8 autres milliards de mammifères à tourner en rond, et on a déjà atteint un plateau de performance et finesse de ces algorithmes.

Regardez les Siri et autres Alexa : leur reconnaissance vocales sont efficaces, mais on n'en a rien fait d'autre après pendant 10 ans.

Regardez les systèmes experts des années 70s (l'ancien nom de lintelligence artificielle) : des promesses de dingos dans les jouraux, 40 ans de piétinage...

-
tout ce qu'on demande aux Intelligences Artificielles c'est qu'elle nous donne l'amour que les autres Intelligences Organiques nous refusent... sNIIRRRrfl !

pas gagné là.

avatar Bigdidou | 

Heu…
Bluffant de pauvreté.
Du remplissage sonore sans le moindre intérêt.

Ça me fait penser aux générateurs d’images.

On joue avec quelques heures, on constate que c’est à chier et qu’on en tirera rien d’exploitable, qu’il vaut bien mieux aller chercher dans une banque de média quitte à débourser un peu, ce qui parait la moindre des choses quand un travail se veut un peu pro.

Après, pour du bricolage de d’ado geek, de formation ou de communication interne à très bas budget, je ne sais pas.
Ça fait pas envie, en tout cas.

Franchement toute cette IA n’est-elle pas survendue ?
On commence à chaque fois par jouer un peu avec, et puis ça tourne en boucle sur du superficiel ou du basique qu’il faudra de toute façon approfondir en utilisant les outils habituels qu’on aurait aussi vite fait d’utiliser tout de suite.

Bon, c’est sûrement juste le début, mais mon enthousiasme du début s’effondre…

avatar DahuLArthropode | 

@Bigdidou

Il y a un marché pour ça. La musique libre de droits intéresse non pas les mélomanes, mais des clients, pour faire de la tapisserie sonore: entreprises, restauration, etc. Ce qui se vend actuellement en musique libre de droit est déjà de la merde, et grâce à l’IA, il y en aura plus pour moins cher.
De même pour les images : il y a un marché pour l’art, mais un marché bien plus vaste pour l’illustration ou la déco. Et pareil pour la littérature.
Ex-consultant, j’ai lu (et parfois produit) de la prose qui semblait déjà écrite par un robot, illustrée par des copier/coller de croquis/clichés mal faits et vus mille fois: l’IA ne fera pas pire.
Bref: il me semble qu’il n’est pas pertinent d’évaluer strictement la qualité artistique des productions de l’IA, mais qu’il faut s’intéresser à sa capacité en terme de productivité, pour le pire sans doute.
Sans compter le potentiel pour des usages frauduleux. Par exemple, l’IA pourra sans doute faire illusion pour lancer des arnaques de grande ampleur, des fermes à troll automatisées et des brouteurs plus convaincants que ceux de Côte d’Ivoire.

avatar jamab | 

@DahuLArthropode

Enfin un commentaire pertinent. Merci.

avatar oomu | 

@jamab

non.

avatar oomu | 

@DahuLArthropode

"Il y a un marché pour ça. La musique libre de droits intéresse non pas les mélomanes, mais des clients, pour faire de la tapisserie sonore: entreprises, restauration, etc. Ce qui se vend actuellement en musique libre de droit est déjà de la merde, et grâce à l’IA, il y en aura plus pour moins cher.
"

oui ben on s'en fout de ça. si vous avez un ascenseur à sonoriser, faites le.. on s'en fout mais grave.

-
"De même pour les images : il y a un marché pour l’art, mais un marché bien plus vaste pour l’illustration ou la déco. Et pareil pour la littérature. "

bof. on sait déjà que ce marché est à la limite de l'automatisation. Ikea utilisait déjà du CGI pour ses catalogues...

pour les illustrations de romans, comme toujours, y aura les collections à bas de gamme avec une illustration automatisée, et celles à prestige avec une recherche artistique et cohérente à l'oeuvre pour vendre.

-
"Sans compter le potentiel pour des usages frauduleux. Par exemple, l’IA pourra sans doute faire illusion pour lancer des arnaques de grande ampleur, des fermes à troll automatisées et des brouteurs plus convaincants que ceux de Côte d’Ivoire"

déjà en cours

notons qu'on a déjà des robots pour écrire les arnaques, les distribuer et les gérer

et on a des robots pour les lire et les jeter...

je pense de plus en plus que les humains devraient foutre le camps d'internet et laisser les robots entre eux, peinards.

avatar DahuLArthropode | 

@oomu

"oui ben on s'en fout de ça. si vous avez un ascenseur à sonoriser, faites le.. on s'en fout mais grave."

Je comprends mal votre ton, désagréable, et qui me surprend de votre part.
Il me semble être dans le sujet. Je ne fais pas la promotion de ladite musique, je propose juste d’utiliser les critères d’analyse pertinents — ceux de l’industrie — plutôt que ceux de l’art.
D’ailleurs, le reste de votre message me paraît aller plutôt dans ce sens, vous confirmez que c’est l’orientation des choses. Peut-être avez-vous cru que j’appréciais ce tournant, que je déplore, comme vous d’après ce que je comprends.

avatar rikki finefleur | 

oomu
Ben si tu t'en fous , tant mieux pour toi..
Pour ma part je trouve qu'arriver à créer, jouer de la musique en mêlant plusieurs instruments par un robot et que cela soit écoutable, est pour moi extraordinaire pour un début..
Et cela ne m’empêchera de faire ma propre musique.

avatar Bigdidou | 

@rikki finefleur

« est pour moi extraordinaire pour un début.. »

Extraordinaire ?
Mais quel besoin, quel intérêt ?

Trouver extraordinaire de produire du déchet parce que c’est un robot qui le fait, ça m’échappe.

Ou alors dans une démarche artistique très second degré…

avatar Bigdidou | 

@DahuLArthropode

« mais qu’il faut s’intéresser à sa capacité en terme de productivité, pour le pire sans doute. »

C’est mon interrogation.
Quel est le sens d’une telle productivité ?
Produire pour produire, sans la moindre valeur ajoutée, quelque chose que tout le monde peut du coup produire…

avatar DahuLArthropode | 

@Bigdidou

Lueur d’espoir: cela fera baisser le cours de la merde en b’art.

avatar Bigdidou | 

@DahuLArthropode

C’est un autre débat ;)

Tout ça pour dire qu’on a à faire ici à du bruitage, au mieux, mais de la musique, ça n’a aucun sens.
Alors peut-être que je suis trop éloigné du monde de l’industrie et qu’une machine a produire du bruit vaguement musical pour illustrer une situation est une chose qui manque absolument et une promesse de gains phénoménaux.

Ceci etant, je défie quiconque d’écouter ces bruitage et de remonter a l’aveugle à la demande de départ.
Un genre de Dixel bruité…
Ça me fait penser a ces yaourts parfumés dont on ne peut pas dire le parfum si on n’a pas lu l’étiquette, et alors que celle ci pourrait nous convaincre de n’importe quelle autre saveur.
C’est pas l’IA qui illustre, c’est toi qui va chercher trouver le rapport puis t’en convaincre.

avatar DahuLArthropode | 

@Bigdidou

"ces yaourts parfumés dont on ne peut pas dire le parfum si on n’a pas lu l’étiquette"

... ce sont qui se vendent le mieux.

avatar Brice21 | 

L’approche de la musique générative par l’échantillon est encore à des années lumière de ce que générait le MadPlayer de MadWaves en midi, en 2001! Crée par un informaticien musicologue français, ce bijou de technologie a été incompris car marketé vers des rappeurs trop débiles pour piger comment il fonctionne. J’en ai deux et ce qu’il génère reste loin devant tout ce que j’ai vu récemment, de riffusion à Boomy.

Je pense qu’avec le machine learning + les algorithmes transformers (modélisant les relations entre les notes dans une fenêtre d’attention qui pourrait être l’intégrale du genre) et le protocole midi, il y a une piste créative fabuleuse très largement sous-exploitée. Le problème est d’avoir accès à une bibliothèque midi assez large.

CONNEXION UTILISATEUR