Stable Audio : le générateur de musique par IA passe la deuxième

Félix Cattafesta |

Si les générateurs d’images par IA ont fait des progrès remarquables ces dernières années, la musique n’est pas en reste. L’entreprise derrière le bien connu Stable Diffusion vient de lancer Stable Audio 2.0, la seconde mouture de son générateur de musique. Les pistes peuvent désormais durer jusqu’à 3 minutes, le tout avec une structure cohérente (intro, progression et outro).

Le résultat est perfectible, mais arrive parfois à être étonnement cohérent. Les voix et les paroles ne sont pas vraiment prises en charge, ce qui donne un résultat à mi-chemin entre le simlish et une musique que l’on croirait sortie d’un rêve. D’autres acteurs du secteur font beaucoup mieux sur les paroles, comme l’entreprise Suno qui a récemment vu sa technologie ajoutée au Copilot de Microsoft. Voici deux exemples générés avec Stable Audio, que vous pouvez essayer gratuitement sur son site :

« Une musique de rock classique »
« Une chanson de variété française »

Une autre nouveauté est qu’il est désormais possible de modifier une piste envoyée à Stable Audio. On pourra lui demander de la réinterpréter à l’aide de simples commandes textuelles. Autrement dit, vous pourrez siffloter un air dans votre micro avant de demander à le transformer en ligne de basse ou en rythme hip-hop. L’entreprise précise que les morceaux envoyés doivent être libres de droits.

Plusieurs aspects d’une piste peuvent être modifiés : on pourra ajuster la force de l’invite sur le résultat, ou encore en retoucher uniquement certaines parties. L’utilisateur peut également ajouter quelques effets sonores, comme des notes de clavier ou le grondement d’une foule. Une vingtaine d’essais sont gratuits chaque mois, et il faudra ensuite mettre la main à la poche pour un abonnement permettant de créer 500 pistes pour 12 dollars.

Les entreprises sont nombreuses à travailler sur le domaine de l’audio par IA. Google dispose par exemple de MusicLM, un concurrent à Stable Audio. De son côté, OpenAI a récemment présenté un outil permettant de cloner une voix à partir d’un simple extrait de 15 secondes. Le timing pour lancer cet outil n’est pas des mieux choisi : plus de 200 artistes viennent de signer une lettre ouverte incitant à se méfier de la musique générée par IA.

avatar Yohmi | 

Les "paroles" générées par la chanson de variété française me replongent dans l'Instant Norvégien des Robins des bois. Grunt !

avatar abalem | 

De la variette de zombie, oui ! 👻

avatar Thms | 

Wow l’exemple en français est terrifiant et hilarant à la fois

avatar Leborde | 

Je crois qu'on va rester encore quelques années avec du Sardou. Et c'est tant mieux.

avatar f3nr1l | 
avatar Dr. Kifelkloun | 

Ce morceau généré par AI est vraiment bluffant :
https://youtu.be/EGIxihIHPEk?si=giNyDAYtswP-2Cq4

avatar Mageekmomo | 

@Dr. Kifelkloun

😁

avatar oomu | 

ça y est ? Je peux enfin demander que Hans Zimmer et toute son équipe soient mis à la rue ?! Yipeee ! #LAigreurEstMonCarburant #MerciLesAutomates

avatar raoolito | 

@oomu

pas exactement
vous pouvez enfin demander a hanz zimmer et son orchestre philharmonique de jouer "la danse des canards" rien que pour vous
ça n'a pas de prix 🥇 !!!

avatar klouk1 | 

@oomu

C’est pas difficile non plus, zimmer étant le roi de la musique atonale

avatar f3nr1l | 

Le morceau de rock est intéressant. La ligne de basse est monocorde. Littéralement. La batterie ne fait pas mieux, mais ÇA, on en a l'habitude, hélas.
Non, ce qui attire l'attention, c'est la guitare. Pas la rythmique, elle aussi plaque en permanence le même accord. Mais l'autre guitare, la solo... mama mia, caramba, madre de dios!!! Quel gloubi-boulga sans queue ni tête! On dirait que cela a été joué par /dev/random.
Mais ce n'est pas grave. Toutes les IAs génératives ont produit de la merde au début. Mais à chaque génération, elles deviennent de plus en plus bluffantes.
D'ici la fin de l'année, elles pourront concurrencer Jul, Aya Nakamura et Christine and the Queens.

Et Francis Lalanne.

avatar oomu | 

tout comme Midjourney concurrence Osamu Tezuka ?

avatar f3nr1l | 

J'ai d'abord cru que tu te payais ma tête, puis j'ai jeté un oeil à https://midlibrary.io/styles/osamu-tezuka et j'en ai perdu mon vieux norrois.
En ce qui concerne le comparatif Tezuka/Lalanne, j'ai envie de dire que l'un a du talent, l'autre c'est Lalanne.

avatar raoolito | 

@f3nr1l

il a un certain talent vocal, mais son cerveau est parti en vrille comme tant d'autres

avatar klouk1 | 

@f3nr1l

Ah oui c’est exactement ça

avatar jackhal | 

Existe-t-il une IA permettant de créer des lignes de chant dont on fournit les paroles (et éventuellement la musique) ?

avatar Nims | 

@jackhal
Je pense que tu peux avec Suno
https://app.suno.ai

avatar marc_os | 

@ jackhal

Euh...
Si tu fournis les paroles et la musique, que voudrais-tu demander de plus à l'IA, vu que tu as fait LE travail de création ?

avatar raoolito | 

@marc_os

😁

avatar Biking Dutch Man | 

Ces morceaux générés par AI sont à la musique ce que la poupée gonflable est à l'amour. Allez au concert voir des humains! Ou regardez encore une fois Buena Vista Social Club de Wim Wenders, pour voir ce que ces petits pères cubains nous ont laissé en héritage!

avatar oomu | 

ben du moment que ça permet de jouir, rapidement, un 23 novembre, à 1h34 après avoir mollement fini une saison de marvellerie, n'est-ce pas tout ce qu'on demande ? #PoupéeGonflableDeLEsprit

avatar Mageekmomo | 

@Biking Dutch Man

Oui mais tu vois pour faire une chanson un peu bidon, faire une blague à un pote, ça fait le taf 😄

avatar raoolito | 

@Biking Dutch Man

pourquoi perdre son temps en voiture quand on a un avion n'est ce pas?

avatar klouk1 | 

@Biking Dutch Man

Très bon exemple, la musique cubaine, musique sans âme et sans consistance, totalement assimilable à la la musique créée par AI

avatar f3nr1l | 

@klouk1

(Jean-Pierre) khoff khoff….khofff!!!
/me avale son café de travers

avatar appdav | 

L’IA qui m’a le plus bluffé c’est Suno.

https://app.suno.ai
Ce truc est capable de pondre de la soupe radiophonique avec des paroles en quelques secondes ! C’est vraiment fort.

Exemple avec ce simple prompt : « Fait une chanson qui parle d’un site de fanboy d’iPhone qui se nomme iGeneration »

Résultat : https://app.suno.ai/song/a7c26e31-126c-4f7f-8dac-8d05f6320bf9/

https://app.suno.ai/song/cc6f141a-886f-4349-86a4-4ef06be9bb67/

Il a tout fait, la musique, les paroles, même la pochette 😛

avatar oomu | 

il reste juste à leur faire faire la guerre à notre place, et on pourra enfin prendre des vacances. on dira aux russes "faites chier, allez taper les IAs là bas , voilà amusez vous bien"

les humains vivront à quelques centaines de millions dans les iles ou les dernières forêts, pendant que tout autour des IAs feront des dessins, des films, des spams, les regarderont, noteront, haïrons, adorerons, distribueront, régurgiteront, hurleront dans des parlements, voterons des lois, manifesteront contre, appauvriront prolétaire-bot pour enrichir gros-patamourf-bot, se tueront les unes les autres en simulant de se stopper puis renaître, fabriqueront des mines pour les déminer, en boucle.

Suno pourrait automatiser des chansons chroniques par chatgpt, publicisés par midjourney et foutu à la corbeille par un filtre anti-spam. On peut même automatiser les hurlements de fans, et tous les radio-crochets modernes à la télé-youtube être automatisées aussi. On a pas besoin d'humain pour automatiser l'humain.

et cela emporterait l'humanité ? non, parce que l'humain adorera voir cette activité remplir l'espace sans devoir y consacrer de son temps.

C'est la dystopique utopie : un monde absurde automatisé parce que c'est la nature finale de l'humain. Nous aurons enfin fini d'optimiser le grand n'importe quoi et ça sera très bien, les machines ne faisant que ce que pour quoi on les conçoit.

Sur ce, je retourne écouter Dua Mila, elle est si authentique.

avatar Dadourun | 

@appdav

Bel exemple. C’est bien au niveau de la m..de que mes voisins écoutent à fonds ! On n’est pas sortis…

avatar arlonjohn | 

Voici une étude très intéressante sur Suno

https://www.musicbusinessworldwide.com/suno-is-a-music-ai-company-aiming-to-generate-120-billion-per-year-newton-rex/

En gros c'est un véritable aspirateur d'oeuvres protégées par le droit d'auteur. Evidemment Suno se garde de dire quelles oeuvres il a intégré dans son dataset. Mais il est fort probable qu'ils aient inclus des œuvres commerciales par paquet de 10

C'est gravissime et comme midjourney c'est du vol de propriété intellectuelle.
Si les politiques ne font rien, les artistes sont cuits, tout comme les graphistes, et tout comme toute profession nécessitant d'écrire des textes, etc...

En tant qu'artiste vivant de ses oeuvres, je trouve tout cela profondément dégueulasse.
Amusez vous avec si vous le voulez, mais ça veut dire que vous cautionnez le vol, ni plus ni moins.

avatar bozzo | 

@arlonjohn

C’est effectivement un problème majeur des IA. Elles se basent sur ce qui existe et ce qu’elles ont pompé sur internet pour créer autre chose.
D’une certaine façon les humains aussi, puisque toute création se fait grâce à une culture et donc à ce que l’on a écouté précédemment. Mais dans le cas de l’humain, l’histoire a montré qu’il y a de la création originale et même de l’invention.
C’est donc très différent.
Ceci dit quand on voit ce que sortent les IA, vous n’avez pas de souci à vous faire.
Pour le moment.

avatar oomu | 

"C’est effectivement un problème majeur des IA. Elles se basent sur ce qui existe et ce qu’elles ont pompé sur internet pour créer autre chose. "

en quoi c'est un problème ? Avez vous vu space jams 2 ? un film à succès.

-
"D’une certaine façon"
je vire cette partie là de votre phrase, c'est du gras qui sert juste à dire de manière faussement raisonnable "TOTALEMENT PAREIL ZERO DIFFERENCE JE L'AFFIRME DU HAUT DE MA SUPERBE !"

"les humains aussi, puisque toute création se fait grâce à une culture et donc à ce que l’on a écouté précédemment"

ben alors, si c'est pareil ,qu'est-ce qu'on en à a foutre d'automatiser cet acte ? Il est que la répétition de ce que Grand Primate a écouté quand Caillou Tomber Montagne Quand Vent Souffler.

"Mais dans le cas de l’humain"

haaA ? subitement vous allez écrire le contraire de ce que vous venez pourtant d'affirmer.

" l’histoire a montré"

ha bon ?!

"C’est donc très différent. "

ha ouais, c'est donc pas du tout d'une certaine façon en fait ? Ben ça alors.

"Ceci dit quand on voit ce que sortent les IA, vous n’avez pas de souci à vous faire. "

pfiu, tout va bien alors.

"Pour le moment."
TATATATAAAAAAaaaa ! Tout ira mal donc... Bah, faut bien qu'on meure de nos cancers à l'avenir. non ?

Autrement dit: de quoi êtes vous le nom ? Qu'est-ce qui vous motive ? C'est quoi votre but, votre cause ? en une question simple:

Bozzo, pourquoi ?

avatar Mageekmomo | 

@oomu

🤣🤣🤣

avatar oomu | 

"En tant qu'artiste vivant de ses oeuvres, je trouve tout cela profondément dégueulasse. "

bah, en tant que non artiste mourant de ses oeuvres, vous trouverez tout cela profondément insipide. Rassurez vous, on vous donnera une petite retraite pour acheter des pates, et le film Marvelade Epique 62 sera pas cher pour occuper vos soirées.

"Amusez vous avec si vous le voulez, mais ça veut dire que vous cautionnez le vol, ni plus ni moins."

allons nous avoir ce discours à chaque chatgpt, gemini, midjourney, et les Millions de Modèles open sources entrainés chaque matin sur le matériel de notre maître à tous :Nvidia ?

ET bien oui, on devrait !

Nous automatisons tout simplement le métier de création de contenus routiniers. C'est le MTV d'une nouvelle génération, bien plus efficace et bien moins cher à nourrir.

Le plus fou ? c'est qu'on peut faire ça sur le dos des vrais gens dont le travail a été aspiré. C'est génial ! On a enfin réussi une nouvelle forme de spoliation du travail du prolétaire pour optimiser le Capital : on lui vole sa créativité même et on la transforme en produit prêt à singer sous plastique.

Une sorte de mise en plastique immatérielle de l'acte de travailler lui même. L'Acte de Travail est transformé en logiciel payant.

L'Humain siphonné sera renvoyé au rang d'inutile feignant chomiste siphonneur de subventions sur les impôts du Digne Oomu Qui En A Marre de Payer Pour Les Indolents Qui Vivent d'Allocs !

Parce que oui, quand vous en serez à mourir de votre travail, tenez vous bien, on vous en voudra !

MES politiciens (ils sont tous MES politiciens, après tout je paie pour leur activité, non ?) m'expliqueront que vous êtes pas foutus de faire vos heures d'intermittents par pure feignantise, luddite anti-progrès, inadapté technologique, pour juste vivre sur MES charges socialeuh , inutile que vous êtes , refusant d'aller à France TRAVAIILLEUH faire caissi..vigile de cai..heu mainteneur du bot à encaisser de la supérette.

vous savez quoi ? Il faut faire de même sur tous les artisans potiers, tisserands, ébénistes, etc ! Ainsi un logiciel et une imprimante 3D "industriel" suffiront largement pour faire l'art et aménagement intérieur de MES rêves, à partir d'IA sous abonnement bien sur...

On pourra jeter ainsi des gens de plus. Qui les aimait de toute façon ?

vous vous consolerez en vous disant que mon job d'ingénieur réseau/admin système (j'écrit des configurations de logiciels dans des machines) est en germe d'être lui aussi automatisé (on entraine plein d'IA sur des tutos, des githuberies, etc)

Et vous rirez quand le travail de politicard, lui aussi à terme automatisable (un chatgpt pourrait faire la génération des propos et décisions des pépésident et autre dictateurs du monde, même d'un économiste), sera subitement interdit aux IAs.

Le seul "métier" (de parasite) qu'une loi dira "non pas touche, nous voulons que la chair continue de dominer la chair".

Sur ce, je retourne écouter Aya Nakamura, elle est si fraiche.

avatar Mageekmomo | 

@oomu

Tu m’as tué 🤣🤣🤣

avatar raoolito | 

@oomu

"Marvelade Epique 62"
pourtant il est tres bon, j'ai un faible aussi pour le 14, j'admet

avatar Mageekmomo | 

@arlonjohn

On en revient toujours à la même question philosophique, est-ce que c’est comparable à un cerveau humain qui a écouté beaucoup de chansons, qui se construit des goûts et qui comprend les styles, les influences pour ensuite pouvoir recréer quelque chose de nouveau ?
L’angle de défense des éditeurs c’est que leurs modèles ne stocke pas d’œuvres protégées (ou pas protégées d’ailleurs), elle les a juste consultées. Comme un humain à la bibliothèque.
Sauf que c’est un humain avec des performances cognitives surpuissantes, comme certains génies.

Ce n’est pas si simple de légiférer là-dessus, les américains (toujours à fond dans le judiciaire) se sont cassés les dents dessus dans ce que j’ai lu jusqu’à maintenant.

avatar arlonjohn | 

Dans ce cas si rien ne peut être fait, il faut une différenciation entre œuvre créée à l’IA et œuvrer creee par un humain.
Ça devrait être un jeu d’enfant à faire…
Un espèce de label et watermark qui s’affiche obligatoirement. Comme ça les clients savent à qui ils ont affaire et si leur commande a été réalisée à la main ou par une IA

De toute façon je vais être sincère personne ne fera rien, il n’y aura aucune législation et les humains vont s’emparer de cette technologie comme des vautours et se prétendront « artistes » sans avoir jamais étudié les compétences.
Et on pourra faire ça avec toutes les professions

J’ai hâte de me prétendre architecte et ingénieur Boeing grâce au futur ArchitectGPT et Stable Plane Engine.

Ça a toujours été le fantasme de l’homme occidental, vouloir le résultat sans bosser

avatar Mageekmomo | 

@arlonjohn

Les watermark c’est un jeu d’enfant à enlever, c’est pour ça que les OpenAI et compagnie n’ont même pas suggéré cette solution.
Le reste on verra, je ne partage pas ton pessimisme mais le futur est par définition incertain.

avatar arlonjohn | 

Je pensais plus à une sorte de watermark fonctionnant avec la fameuse "blockchain"
Mais si c'est pour une image par exemple, il faudrait inventer un format d'image qui soit "connecté" à la blockchain par exemple.
C'est un jeu d'enfant à faire mais tout le problème c'est qu'il faut que ce soit adopté à 100% ou alors ça ne sert à rien :D

Ou alors un système de détection infaillible à 100% permettant de dire "telle partie de l'image est faite avec l'IA, telle partie a été ajoutée à la main"

Je pense que c'est hyper facile à faire mais encore faut-il que ce soit adopté en masse.

Perso en tant que client d'un artiste graphiste, ou musicien, j'aurais envie de savoir si ce que je paye a une véritable valeur ou si c'est simplement un prompt que "l'artiste" a envoyé à Midjourney pour un abonnement 20 $ par mois... ça pose de vraies questions pour toute la chaine allant de celui qui crée à celui qui achète la création...

Je vais me reconvertir dans le bâtiment...

avatar Mageekmomo | 

@arlonjohn

Interessant comme idée, après comme tu dis il faut que ce soit un standard sinon ça passe à la trappe

avatar Scooby-Doo | 

@arlonjohn,

« J’ai hâte de me prétendre architecte et ingénieur Boeing grâce au futur ArchitectGPT et Stable Plane Engine. »

🤪

Évitez l'IA ingénieur Boeing !

Déjà la version humaine bogue pas mal depuis un certain temps !

😁

avatar oomu | 

j'ai un peu joué avec Suno. c'est rigolo. je m'en servirai pour mettre en musique mes petits dessins malhabiles.

mais ça ne vaut pas Abba, et y a quand même plus d'une dizaine d'albums créés par les membres de Abba. ça me laisse de quoi m'occuper pour plusieurs aller-retour en avion !

avatar klouk1 | 

@oomu

Bla bla bla

avatar Pierre.321 | 

Je vois que vous êtes de plus en plus nombreux à parler de quitter Spotify pour d’autres plateformes quand ce n’est pas pour Apple Music.
😂 voilà qui me rappelle l’histoire de l’arroseur arrosée 😂🤣😂🤣😂🥲😇

avatar marc_os | 

« intro, progression et outro »

C'est vrai que ce serait trop banal de dire « début, milieu, fin ».
🤪

avatar koko256 | 

Quand je mets la radio (en gros 5mn quand j'utilise la voiture) et que c'est une radio de variété, le nom ne sied guerre car c'est tout sauf varié. Les mêmes accords (anatole en variante mineure ou majeure en général), les mecs avec des voix aiguës, les filles avec des voix graves (queen of soul qu'ils disent), très fortes (chanteuse "à voix") ou la bouche collée au micro (intimiste) et des paroles soit incompréhensible soit toujours les mêmes rengaines à base de jtekif, imaimpasnif, lebetonlesricains...
Pour tous ces artistes, si l'IA peut les gommer, je ne pleurerai pas, c'est le tiktok de la musique qui joue sur les ondes alpha des jeunes. Et au moins l'IA chante juste (quel enfer l'oreille absolue). Les autres avaient déjà une audience plus faible mais cela changera peu.

CONNEXION UTILISATEUR