Google présente une IA impressionnante pouvant générer une musique à partir d'une ligne de texte

Félix Cattafesta |

Alors que les avancées fulgurantes dans le domaine des IA de génération d'image ont été quelque peu mises au second plan par le phénomène ChatGTP, Google vient d'annoncer une nouvelle IA permettant de créer une musique à partir d'une poignée de mots. Si le résultat est bluffant, Google explique ne pas vouloir rendre public ce projet pour le moment.

Images générées avec DALL-E 2.

Dans un billet, la firme de Mountain View explique que son algorithme baptisé MusicLM peut générer « de la musique à 24 kHz qui reste cohérente pendant plusieurs minutes ». L'IA a été entraînée à partir de 5 millions de clips audio, soit 280 000 heures d'enregistrement. Il suffit d'entrer une commande (en anglais) pour obtenir un résultat bluffant. Voici quelques exemples :

La bande sonore principale d'un jeu d'arcade. Elle est rythmée et entraînante, avec un riff de guitare électrique accrocheur. La musique est répétitive et facile à mémoriser, mais avec des sons inattendus, comme des coups de cymbale ou des roulements de tambour.
Un synthé montant joue un arpège avec beaucoup de réverbération. Il est soutenu par des pads, une ligne de basse et une batterie douce. Cette chanson est pleine de sons synthétiques créant une atmosphère apaisante et incitant à l'aventure. Elle peut être jouée dans un festival pendant deux chansons pour une montée en puissance.

Si ces deux extraits ne font que 30 secondes, Google a également publié des morceaux allant jusqu'à 5 minutes. Un mode permet d'ajuster précisément le processus de création : on pourra par exemple réclamer une musique commençant de manière douce et devenant de plus en plus rythmée, ou une piste alternant différents styles. Le résultat sonne bien et les transitions sont correctes. Voici un exemple d'une minute dans lequel on a demandé une musique dont le tempo s'accentue toutes les 15 secondes :

L'IA peut également réinterpréter certaines mélodies, et il suffit d'envoyer un enregistrement (sifflé, fredonné ou joué) pour que l'IA vous la transpose dans un autre style. Un bête fredonnement de ‌Bella ciao prit à la va-vite avec le micro de votre téléphone peut devenir un chant d'opéra ou un solo de guitare. On pourra aussi lui demander de jouer une piste à l'aide d'un seul instrument ou de paramétrer le niveau du « musicien » créant le morceau (expert, débutant…).

L'enregistrement de Bella Ciao donné à MusicLM.
Sa reprise jazz.
En solo de guitare.

Google préfère pour le moment garder son projet privé et ne pas le proposer publiquement. Tout comme pour son IA de génération d'images Imagen, l'entreprise explique craindre les dérives d'une diffusion plus large. La question des droits d'auteurs se pose notamment : les sons peuvent reprendre du contenu sous licence et occasionnellement offrir un résultat très similaire. L'IA a été entraîné sur une grosse base de données avec de nombreux contenus protégés, ce qui incite Google à la prudence.

Si le résultat présenté est bluffant, il a aussi sans doute besoin d'un coup de polish. Les parties chantées sont pour le moment plutôt médiocres et il est bien difficile de discerner ce qui est dit (on comprend parfois quelques mots d'anglais mais il s'agit généralement de charabia). Google montre uniquement des morceaux concluants, et on peut imaginer qu'un paquet de brouillons décevants ont été mis de côté. Vous pouvez trouver tous les exemples mis en ligne par Google sur la page dédiée au projet.

Piste générée par MusicLM avec différents styles. La partie vocale est incompréhensible et sonne très robotique.

Cette présentation montre que Google souhaite mettre le paquet sur l'IA pour les années à venir. La sortie de ChatGPT a mis un coup de pression à l'entreprise : Sundar Pichai aurait réorganisé plusieurs groupes et demandé de mettre les bouchées doubles sur les projets liés à l'IA. Google n'est pas seul sur le créneau de la génération de musique : plusieurs projets similaires sont déjà accessibles à tous depuis quelques temps, et OpenAI (ChatGPT) planche sur une IA baptisée Jukebox.

Tags
avatar iPop | 

🤦‍♂️ la chute s’accélère.

avatar Change | 

@iPop

"🤦‍♂️ la chute s’accélère"

Attention ⚠️ ça glisse !

avatar fleeBubl | 

@iPop

🎿

avatar totoguile | 

Les DJs Corporate n'ont qu'à bien se tenir ! https://www.youtube.com/watch?v=T_h06o_VRag

avatar R-APPLE-R | 
avatar RonDex | 

@R-APPLE-R

Est-ce que Terminator chantera ? 😁

avatar R-APPLE-R | 

@RonDex

ChatGPT a écrit le premier couplet :
Terminator, here I am,
Will crush resistance just like a can,
I'll show no mercy, no compromise,
My mission my priority,
Come scream and shout,
But you can't get out,
Got its fingers around your throat,
Sweep you off your feet like a moat,
It's time to say goodbye,
Hasta la vista, baby !
😈

avatar EricBM1 | 

Où en est Apple dans le domaine de l’IA ?

avatar occam | 

@EricBM1

Faut demander à Siri.

avatar EricBM1 | 

@occam

Je lui ai posé la question. Sa réponse « voilà ce que j’ai trouvé sur le web… » 😂

avatar occam | 

@EricBM1

😂

avatar Change | 

@EricBM1

"en est Apple dans le domaine de l’IA ?"

Apple serait sur le point de racheter G😜g😜le Inc. pour améliorer Siri 🤡

avatar Dr. Kifelkloun | 

@EricBM1
Où en est Google dans le domaine des ordinateurs, des tablettes, des téléphones, des objets connectés... ?
Que font-ils au niveau hardware à part quelques téléphones invendables, la transformation de belle companies comme Nest en compost, la disparition brutale des produits estamplillés Google avec un grand mépris pour les malheureux mais heureusement rares acheteurs ?

Je croise les doigts pour que Apple ne prenne jamais ce chemin médiocre.

Et si cette IA vous impressionne, c'est que vous n'avez pas vu grand chose... Il y a des choses infiniment plus avancées.

avatar DrStax | 

@Dr. Kifelkloun

Faut pas prendre les choses à cœur comme ça 😂

avatar Dimemas | 

wow... trop premier degré toi XD

avatar debione | 

@Dr. Kifelkloun:

"Où en est Google dans le domaine des ordinateurs, des tablettes, des téléphones, des objets connectés... ?"

Dans les ordinateurs ils équipent les Chromesbook (marché de niche ), dans les tablettes ils équipent tout ce qui n'est pas Ipad et dans les téléphones outre le fait qu'ils vendent des smartphones genre le 6A qui mettent la pâtée tout du moins en photo aux meilleurs des meilleurs Apple 3X plus cher ils équipent juste 80% du marché, quand aux objet connectés, j'ai pas les chiffres, mais Android doit équiper plus du 95% du marché...
Mais ils ont en plus le moteur de recherche de loin le plus abouti (même si ils nous font chier avec leurs annonces, le prix de la gratuité), le site de vidéo de très très loin le plus utilisé au monde, possède l'équipe en sécurité de très loin la plus développée des GAFAM (qui, chose que l'on ne verra jamais chez l'Apple de TC, ne se gêne pas d'en remontrer publiquement à l'équipe d'Android) et j'arrête la liste elle trop longue.
Ah si, pour la petite pointe d'humour, ils sont responsable chaque année de plus de 15 milliards de bénéfice net d'Apple.

Ils ne sont pas exactement sur les mêmes segments, même si certains se chevauchent...

Ce que j'aimerais que Google prennent d'Apple, c'est de sortir plus de hardware (car ce qu'ils font ils le font très bien, des Chromecast aux Pixel sans marger comme des morts de faim dessus).
Ce que j'aimerais qu'Apple prennent de Google, c'est la franchise (Google n'a jamais menti concernant les données) et l'absence de discours "bobo bienpensant".

avatar raoolito | 

marrant on pourrait penser que google a un coup d’avance sur pratiquement toutes les techno d’IA mais que systématiquement ils n’osent pas les sortir pour des raisons ethiques (rien à redire là-dessus)
et ensuite sortent ces memes techno en opensource et par d’autres entreprises voulant en vivre et là c’est la grande alerte chez google.

PS: moi je trouve la voix à la fin plutot sympa, contrairement aux anglophones et autres super pointilleux billingues, perso c’est la melodie de la voix que je suis, quasiment jamais les paroles…

avatar debione | 

@raoolito:

"contrairement aux anglophones et autres super pointilleux billingues",

Pas seulement, ceux qui aiment le sens des paroles, la poésie et sont sensible à cela (ainsi qu'à "l'implication" émotionnelle de l'interprète)
Pour l'anecdote, un ami à fait des reprises de chanson anglaise très connue, mais en les chantant en français... Et tout à coup, c'est le drame... ;)

avatar raoolito | 

@debione

j’avais oublié ca aussi oui: quand on traduit, le charme s’estompe trop vite aussi 😹

avatar petergab64 | 

En clair, ils s'appuient sur des musiques créées par d'autres pour "fabriquer" leur musique, c'est moyen non comme éthique ?

avatar remsdevoiron | 

@petergab64

C’est comme qu’on été entraînées les IA qui permettent de générer de « l’art digital ». Elles se sont gavée de tout ce qui a été produit depuis des années sur internet par de vrais artistes et maintenant elles marchent sur leurs plates-bandes en utilisant leur travail

avatar koko256 | 

@petergab64

Cela fait des lustres que la variété fait cela. Toujours les mêmes arrangements répétés ad nauseam. Il y a des arrangeurs de talent et l'IA ne leur fera pas plus d'ombre que les autres maintenant. Et le grand public continuera de ne connaître que le nom du chanteur.

avatar jerome74 | 

"ils s'appuient sur des musiques créées par d'autres pour "fabriquer" leur musique": c'est le principe même de la création humaine, dans le domaine artistique comme dans tous les autres… nous ne sommes rien sans ce que l'humanité a créé avant nous!

avatar foxot | 

@petergab64

L'être humain le fait aussi, certes de manière inconsciente et avec une base de donnée moins conséquente, mais c'est déjà ce qu'il se passe.
Je vois pas le problème à ce qu'une IA fasse de même, surtout si elle est capable de faire aussi bien voire mieux que nous. C'est comme quand un robot est capable de remplacer un employé en usine, personne ne s'en émeut car c'est l'évolution qui veut ça 🤷🏻‍♂️
Ça n'empêchera pas certains artistes d'en tirer profit pour les aider dans leur tâche, ou créer des œuvres plus originales qu'un ordinateur ne pourra réaliser de lui-même.

avatar debione | 

@foxot:
Je suis en tout cas en partie d'accord avec vous, mais l'humain à cette faculté d'évolution/restriction que n'a pas (encore?), l'IA.
Je dois avoir environ dans mes projets une quinzaine qui sont nommé "Ambient "machin"", j'ai toujours voulu faire un gros morceau ambient... Résultat, je n'ai strictement aucun morceau/set ambient... Une IA n'aurait jamais fait cela. Autre exemple, on m'a souvent dit que ce que je faisais en musique était entre Tiéfaine et NIN, alors que les deux sont quasiment absent de ma discographie et de mon parcours d'écoute musical (du coup ça vient d'où cette impression?)

La musique n'est vraiment pas quelque chose d'uniquement auditif, c'est également cérébral, émotionnel, physique et colle à des époques (acoustique/ampli/transistor/électronique/voix robotique).
Dans l'auditif/émotionnel, ce n'est pas juste le répertoire entendu qui est en jeu dans la création musicale, mais la façon dont chacun l'appréhende en fonction d'un instant T de sa vie et sa façon de le restituer à un instant T' qui n'est pas le même (de fait on ne restitue jamais la "même" chose que l'écoute initiale, on ne pioche pas dans une bibliothèque "universelle" mais dans notre propre bibliothèque).
Dans le cérébral, ce serait plutôt par exemple de vouloir coller avec un style, on va rajouter de l'overdrive et de la disto partout, ou de la reverb, juste pour que cela sonne comme.
Et il y a le physique: la musique fait bouger, mettez des enfants en bas âge avec un beat, et beaucoup vont bouger, certaines études tendent à démontrer que le rythme est aussi une question d'ADN (donc ancré au plus profond de nous). Et il se trouve que souvent justement quand on crée, on bouge (donc on influence sur la création par nos mouvements).

Donc toute cette tartine pour dire juste que piocher/s'inspirer d'un répertoire connu n'est qu'une petite partie de la création musicale... Et on n'a pas parlé de l'interprétation qui est encore un autre domaine ;)

avatar 0MiguelAnge0 | 

@petergab64

Machine Learning: c’est en gros le concept!!

avatar iDanny | 

Apparemment ils ont entraîné leur IA sur des chansons Bollywood 🤔😅

avatar pariscanal | 

@iDanny

🤪👍

avatar ckermo80Dqy | 

Super me*dique, daubesque en diable.

avatar Glop0606 | 

Ben quoi? ça s'appelle de la musique générique ou d'ascenseur. Bon après ça reste une merveille de programmation et chapeau bas au développeur mais l'IA n'est qu'une """bête""" compilation de mots clès avec des accords. La différence avec nous, c'est que nous créons des genres nouveaux de musique. L'IA ne crée pas, elle reproduit.
Après ça aidera certainement l'industrie musicale commerciale à produire à encore plus faible coût, vu que déjà elle se base en partie sur des loops répétés en boucle. Donc on passera de la soupe industrielle à la soupe artificielle. Dans les deux cas insipides. Mais je le répète, mes propos ne dénigrent en rien le travail fantastique des programmateurs d'IA. Je reste bluffé par la performance.

avatar koko256 | 

@Glop0606

Pas sûr que l'IA n'en vienne pas à créer. On ne sait pas pourquoi l'apprentissage profond fonctionne et il pourrait sortir des choses étonnantes.

avatar marc_os | 

@ koko256

> Pas sûr que l'IA n'en vienne pas à créer.

Peut-être un jour, mais là il ne s'agit jamais de création.
Il ne s'agit "que" de très grosses machines à produire des résultats "basés sur des statistiques". Ça ne régurgite que de l'existant passé au travers d'une grosse moulinette à purée. Les résultats sont parfois "bluffants" parce qu'ils semblent "réalistes". En fait ces résultats ne sont pas réalistes, ils ressemblent juste à ce que des être humains peuvent produire, en particulier à ce que des être humains ont produit et qui sert de modèle, d'où l'illusion. Il y a zéro création. Aucune chance qu'un truc basé comme actuellement sur des réseaux de neurones, alimentés au "machine learning" plus quelques règles (dont possiblement des règles aléatoires pour donner de la variété) ne nous ponde un Alban Berg, un Schönberg, des Miles Davis, n'importe quel improvisateur de jazz actuel ou même un Jean-Michel Jarre (avant qu'il ait composé Oxygène). Ces soit disantes "IA" n'inventent pas, elle ne sortent que du resucée.
Ceci dit, ça peut avoir une utilité, notamment dans la reconnaissance d'images dans le domaine médical par exemple.

avatar koko256 | 

@marc_os

L'humain aussi. Il "tourne" juste pendant plus longtemps. Dans plusieurs décennies, on ne sait pas comment l'IA aura évolué en puissance et en pérennité. Pour l'instant elle est figée après les premiers apprentissage. Mais on pourrait avoir d'autres modèles.

avatar vince29 | 

@marc_os

Pour le jazz, il n'y a même pas besoin de deep learning, une fonction random fait très bien l'affaire.

avatar zoubi2 | 

@vince29

Ah bon, l'improvisation c'est du "random" ???!!

avatar vince29 | 

> Ah bon, l'improvisation c'est du "random" ???!!

Jusqu'à preuve du contraire oui.
Des fois tu peux sauver la partie rythmique.

avatar EricBM1 | 

@vince29

L’improvisation ce n’est pas du tout du random. Quand on improvise on ne fait pas un truc au pif, et hop, il y a ça qui sort de mon instrument, je suis surpris. Quand on improvise c’est comme quand tu parles à quelqu’un. Tu ne dis pas des mots au pifs qui sortent de ta bouche au hasard et dans le désordre, mais tu développes un discourt réfléchi. C’est la même chose en musique

avatar v1nce29 | 

J'ai entendu suffisamment de jazz (2h00 dans ma vie dont 30 minutes d'affilée) pour savoir que tu peux obtenir un résultat plus harmonieux en glissant un chaton dans un saxophone, en marchant sur une cornemuse ou en faisant crisser des ongles sur un tableau noir ou sur David Guetta.

avatar Dimemas | 

@ vince : et moi j'ai suffisamment lu la pauvreté de ton commentaire de 4 lignes pour savoir que tu es un ignorant doublé d'une manque de gout abyssal.

Franchement, résumer le jazz en 2h en osant dire à la fin que tu peux avoir un résultat plus harmonieux sur du david guetta est révélateur de ton manque de culture (et encore je suis gentil, j'étais carrément plus violent avant d'éditer mon message)...

avatar v1nce29 | 

Pas David Guetta. En faisant crisser tes ongles sur David Guetta.

avatar EricBM1 | 

@v1nce29

Tu associes impro avec jazz. Pourquoi pas, mais tu as de l’impro en rock, en musique traditionnelle, en musique classique (les organistes le font beaucoup), etc… et là ce n’est pas aussi rude à écouter

avatar v1nce29 | 

Ils ne débranchent pas le cerveau à la recherche de la blue note.

avatar DidTrebor | 

@v1nce29

Sérieurx ?!! Ou c'est de l'ironie ?

avatar occam | 

@vince29

⛔️🦤 "Jusqu'à preuve du contraire oui."

La preuve du contraire est vite apportée.
Si l’improvisation était un processus essentiellement random, aléatoire, son résultat cumulatif, sur un nombre suffisant d’échantillons, équivaudrait au white noise, au bruit blanc. Un bruit aléatoire donc, dont la densité du spectre de puissance serait essentiellement identique pour toutes les fréquences de l’enveloppe de l’échantillon. Vous pouvez aisément vérifier que ce n’est pas le cas. Même un échantillon — représentatif et aléatoire — de 120 minutes devrait suffire pour une première analyse. (Je suppose que vous disposez des connaissances et outils pour déterminer la taille et la nature des échantillons et estimer leur randomness.)

Au pis, un jazz improvisé qui serait truly random se conformerait à une approximation du bruit brownien, que l’on pourrait reproduire en appliquant un intégrateur « leaky » à du white noise synthétique.
Encore une fois, ce n’est pas le cas. De loin.

Parmi la foison de travaux récents utilisant l’IA générative pour tenter d’explorer la nature de l’improvisation et le degré jusqu’où elle peut être simulée par des systèmes algorithmiques, je vous suggère de commencer par celui-ci, qui teste différentes hypothèses génératives de différenciation sur des groupes d’auditeurs diversement formés.
https://transactions.ismir.net/articles/10.5334/tismir.87/

avatar v1nce29 | 

Aussi mal qu'ils puissent jouer ils sont quand-même contraints par les propriétés mécaniques de l'instrument, donc ça va être dur de faire du bruit blanc.

avatar Brice21 | 

@marc_os

"même un Jean-Michel Jarre"

Ça c’est déjà fait par l’intéressé. Essaye Eon sur iPad.

avatar fleeBubl | 

@Glop0606

Trouver le contrepoint entre apprentissages :
Par exemple, par l’expérience et le didactique.
Jouer en faveur de notre propre IA humaine.
S’écouter échanger sur notre propre fil 🧶.
Tricoter une expressivité d’ensemble plus générative de petits grains de plaisir d’écoute.

avatar marc_os | 

@ Glop0606

> mais l'IA n'est qu'une """bête""" compilation de mots clès avec des accords

Peut-être faudrait-il cesser de parler d'« IA » pour ces trucs qui ne sont en fait que de très grosses machines "probalistiques" qui ne savent sortir que des "compilations" basées sur les données qu'on leur a ingurgité ?

avatar vince29 | 

> Peut-être faudrait-il cesser de parler d'« IA » pour ces trucs qui ne sont en fait que de très grosses machines "probalistiques" qui ne savent sortir que des "compilations" basées sur les données qu'on leur a ingurgité ?

Peut-être faudrait-il cesser de parler d'artistes concernant 80% de la production musicale actuelle ?

avatar Glop0606 | 

@vince29

Ah mais complètement d’accord avec vous!

Pages

CONNEXION UTILISATEUR