Après Suno AI et Udio, Stability AI entend à son tour se faire une place dans les générateurs de musique par IA avec une nouvelle génération de son propre modèle. La concurrence est rude et cette version 2.0 du moteur maison de Stability AI a fort à faire pour se hisser au niveau de ses concurrents.
Pour ce faire, Stable Audio 2.0 entend se démarquer avec quelques fonctionnalités particulières, qui portent un peu la signature de la maison-mère, puisqu'elles ressemblent à des adaptations au monde de l'audio des fonctions qui font la spécificité de Stable Diffusion dans le monde de l'image, qui laisse davantage de contrôle à l'utilisateur et favorise la possibilité d'itérer petit à petit pour "sculpter" le résultat attendu. Mais tout cela est-il vraiment suffisant ? Quel avenir pour cet outil face à des spécialistes qui avancent très vite ?
Le premier argument que peut faire valoir Stable Audio 2.0, c'est la longueur des pistes, dont on nous dit qu'elle pourrait dépasser les 4 minutes. Néanmoins, la version commerciale disponible actuellement semble se limiter à 3 minutes maximum, ce qui le rapproche d'Udio. Sur ce plan, donc, pas vraiment de quoi révolutionner le secteur.
Le deuxième argument, inspiré de Stable Diffusion, c'est un mélange de langage naturel et de commandes dans le prompt. On sent que Stable Audio est plus adapté que d'autres à obéir à des ordres précis selon une syntaxe moins naturelle mais plus directe. Les commandes se séparent par un caractère | et permettent de définir précisément les instruments à utiliser, le bpm, etc., sans crainte d'être gêné par une compréhension approximative de la langue humaine. Sympathique, peut-être un poil plus difficile d'accès que la concurrence, encore que... ne vaut-il pas mieux un langage clair et explicite que de batailler des heures à faire du prompt engineering en essayant de comprendre comment le modèle comprend (mal) le langage naturel ?
Le troisième argument, et le plus intéressant sans doute, est celui des fonctions "audio to audio", là encore inspiré du img2img de Stable Diffusion. tel l'inpainting qui a fait la spécificité de SD. Sifflotez un air et demandez-lui de le rejouer au piano, faites du beatbox et demandez-lui d'en faire un beat lofi, donnez lui une mélodie et demandez-lui de générer l'accompagnement, et ainsi de suite... Bien entendu, il faut y aller couche par couche... Vous ne pouvez pas vraiment lui donner un morceau déjà mixé et lui dire "remplace moi la guitare là-dedans par un piano". Mais en ajoutant des couches sur des couches, vous pouvez obtenir des résultats beaucoup plus précis qu'avec un simple prompt.
Et c'est là que Stable Audio a véritablement un coup à jouer. Cette approche "couche par couche" de la musique générative a ceci d'intéressante qu'elle laisse un tel contrôle à l'utilisateur qu'il peut faire un véritable travail de musicien dessus. Là où Udio et Suno sont amusants avec un résultat qui crée tout de suite un effet "waouh" mais laisse au final si peu de contrôle à l'utilisateur qu'il n'obtiendra jamais tout à fait ce qu'il voulait - sauf sur un coup de chance, Stable Audio semble prendre une direction différente, moins impressionnante peut-être mais possiblement plus utile à terme : celle d'un outil pour musiciens, plutôt qu'une IA qui a la prétention - sans doute excessivement audacieuse - de les remplacer.
Le problème est que cela est en grande partie gâché par un moteur de génération audio pas si génial... passons sur le fait que Stable Audio est parfaitement incapable de générer ou même d'interpréter des lyrics. Il ne sait chanter qu'en yaourt, et son yaourt n'est même pas une bonne approximation des sonorités des langues demandées. Bon, l'avantage, c'est que si vous voulez chanter un morceau généré par Stable Audio, vous n'aurez pas besoin de chercher les paroles sur Internet. Envoyez des syllabes au pif total, de toute façon c'est ce qu'il fait aussi. Quant aux voix, elles ne sonnent tout simplement pas humaines. C'est robotique et "flou" au possible.
Passons sur le fait que sa compréhension des genres musicaux est caricaturale à l'extrême (demandez-lui un morceau de variété française et il vous génèrera une instru... à l'accordéon. Pitié...)
Le problème est que même les instruments sont très brouillons, mal définis, approximatifs, que les mélodies ont quelque chose de très "flou", avec des changements de notes bizarres et mal maîtrisés... en fait un peu le genre de défauts que l'on rencontre dans l'image avec les premières versions de Stable Diffusion.
En l'état, Stable Audio n'est donc pas vraiment exploitable. Mais à terme, il a peut-être plus de potentiel que Suno et Udio grâce à sa capacité à se laisser commander par un humain doté d'une véritable vision artistique.
Si vous voulez voir ça par vous-même, vous avez droit à 30 générations gratuites par mois (c'est peu - mais suffisant pour essayer), et des capacités limités d'audio2audio (3 minutes d'upload par mois, par tranches de 30 secondes). C'est ici que ça se passe.