Icône En Bref

Quel est le meilleur modèle de séparation instru/voix du moment ?

Une réponse valable au moins jusqu'à... la semaine prochaine... peut-être ?

D'aucuns appelleraient ça un dada ou une obsession, nous préférerons utiliser le terme de parti-pris : sur EverydAI, on adore les modèles de séparations de pistes ! 

On aime la musique et on trouve qu'il y a quelque chose de particulièrement délicieux à redécouvrir nos morceaux préférés en version instrumentale, a cappella, ou encore en séparant le piano et la guitare... et ça tombe bien, l'IA ne cesse de progresser dans ce domaine ! L'époque des premiers essais via Spleeter paraît bien loin, pour notre plus grand plaisir ! Mais à l'heure où les modèles rivalisent pour offrir la meilleure qualité possible, lequel tire son épingle du jeu ?

Répondre à cette question n'a rien de simple, et aurait dans l'absolu mérité un article complet sur EverydAI plutôt qu'un Bref, sauf que les articles ont vocation à durer... et que ce sujet évolue si vite que notre réponse d'aujourd'hui sera peut-être totalement dépassée dans un mois.

Il n'empêche : en cette fin octobre, nous avons décidé de faire un petit tour d'horizon des modèles gratuits disponibles actuellement, que ce soit en local ou dans le cloud, et de voir si l'un d'entre eux se détachait vraiment du lot. Ce qui n'a rien de simple...

Ce papier sera donc très détaillé, mais pour les plus pressés d'entre vous, vous pouvez sauter directement à la section "Conclusions et démo" en bas de page pour un petit TL;DR. Pour les autres, suivez nous dans le terrier du lapin de la stem-separation... 

Méthode

Pour répondre à cette question de façon un tant soit peu rigoureuse, nous devons définir à l'avance une méthodologie. Cela passe par le choix d'un test, mais aussi par la définition du matériau, à savoir : quels modèles on teste, et sur quoi on les teste.

Choix des modèles :

Il existe un nombre presque infini de modèles disponibles, dans la mesure où il est possible d'en combiner plusieurs entre eux pour tenter de compenser leurs faiblesses respectives. Nous avons choisi de tester ceux qui nous semblaient offrir les meilleures chances de nous convaincre, avec pour seule condition d'être gratuits (au moins à hauteur de plusieurs séparations par jour), qu'ils soient en local ou dans le cloud. Au final, nous avons isolé les modèles suivants :

  • BS-RoFormer (MVSEP.com) : Son vrai nom, c'est "Band-Split Rotary Position Embedding Transformer". C'est un peu technique, mais ce que vous devez retenir, c'est qu'il fait partie des modèles habituellement considérés comme ce qui se fait de mieux à l'heure actuelle. Ici, nous allons utiliser la version entraînée par ZFTurbo pour son site MVSEP.com. Le site est en grande partie gratuit et simple à utiliser.
  • MelBand-RoFormer (MVSEP.com - ver 2024.10) : Le principe est assez similaire, mais l'entraînement de ce modèle est un peu différent car basé sur l'échelle des mels. Pour l'heure, ces modèles ne semblent pas encore au niveau de BS-RoFormer mais toute l'attention de la communauté se tourne vers eux en ce moment, ce qui laisse supposer un très gros potentiel.
  • MelBand-RoFormer Big Beta 4 (UVR5) : Un modèle basé sur le même principe, entraîné par un dénommé Unwa, actuellement en bêta, conçu pour être utilisé sous Ultimate Vocal Remover 5 (UVR5), en local, un logiciel dont nous vous proposons un tuto sur nos pages. Le modèle doit être téléchargé sur HuggingFace et installé sur la dernière version d'UVR5.
  • Mode Ensemble d'UVR5 : Ici, nous avons décidé d'utiliser le mode "Ensemble" d'UVR5 : le principe est de faire la séparation avec plusieurs modèles, puis de fusionner les résultats en un seul fichier qui est la moyenne des résultats des différents modèles. La technique peut paraître barbare, mais les Ensembles de plusieurs modèles d'une même génération offrent généralement une qualité supérieure à un modèle solo de cette génération. Nous avons essayé un ensemble constitué de MelBand-RoFormer Beta4 + Beta3 + BS-RoFormer Viperx 1296 + MDX32C-InstVoc HQ 2.
  • MVSep-MDX23-Colab par Jarredou (Google Colab) : Nettement moins accessible, cette méthode un peu underground repose sur la possibilité offerte par Google d'utiliser leurs fermes de GPU pour faire des calculs d'IA. Un dénommé Jarredou a ainsi décidé de créer son propre Ensemble de modèles et de proposer à tout un chacun de l'utiliser via Google Colab. Son modèle est basé sur un mélange de BS-RoFormer Viperx 1296, de MelRoFormer et de l'ancien modèle InstVoc, pondérés selon un ratio assez subtil.
  • MVSep-MDX23-Colab par Jarredou (réglage alternatif) : Un membre de la communauté a suggéré un réglage un peu différent sur le système de Jarredou, en remplaçant BS-RoFormer par le modèle VitLarge.

 

 

Choix des morceaux :

C'est moins technique, mais c'est important aussi : quelles musiques retient-on pour tester les différents modèles ? Le choix ne doit pas être fait au hasard. Et nous avons une limite importante : avec pas moins de 6 modèles à tester et comparer, nous ne pouvons pas multiplier les morceaux à l'infini, sous peine d'y passer des semaines. Il a donc fallu faire une sélection de morceaux. Votre dévoué testeur a donc choisi quatre morceaux répondant aux deux critères suivants : 1) il les connaît très très bien, les a beaucoup écoutés et sait donc parfaitement ce qu'il attend des modèles. 2) ils sont assez piégeux pour les modèles, assez difficiles à séparer.

Nous nous sommes arrêtés sur quatre morceaux, dans des genres très divers et présentant chacun leur lot de difficulté :

  • Fredericks Goldman Jones - À nos actes manqués (1991) : Tube français du début des années 90, son refrain est constitué de chœurs posant de grandes difficultés aux modèles d'il y a encore six mois. Et même chez les modèles récents, rien n'est gagné.
  • Michael Jackson - Heal the World (1991) : Tube quelque peu sirupeux du Roi de la pop, lui aussi contient son lot de pièges : une intro contenant des voix entendues au loin façon "sons d'ambiance", une longue fin constituée de chœurs façon Gospel, des backing-vocals en veux-tu en voilà, des ad-libs par-dessus des ad-libs, le tout noyé sous une instrumentation qu'on qualifiera volontiers de "généreuse" (le morceau est en réalité constitué de plus de 30 pistes superposées)...
  • Kokia - For little tail (1998) : Chanson signant les débuts de cette chanteuse japonaise, ce morceau est extrait de la bande originale du jeu Tail Concerto, sorti en 1998 sur Playstation. C'est une jolie chanson, mais c'est surtout une chanson très difficile pour les modèles, non-seulement à cause de la voix de la chanteuse qui se superpose en faisant ses propres chœurs et backing vocals, mais surtout à cause de l'importante reverb placée sur sa voix. Le combo reverb + adlib + chœurs + voix principale est très complexe à séparer.
  • Renaud - Mistral Gagnant (1985) : On veut rien savoir, Mistral Gagnant est la plus belle chanson française, point final ! Un peu plus ancienne, on voulait tester ce modèle sur des productions un peu plus vieilles, mais surtout, sur un principe qui ne pardonne pas : un piano, une voix, rien de plus, rien de moins. Ce n'est pas que la séparation pose d'énormes défis sur le papier, mais la moindre erreur sautera immédiatement à l'oreille sur un tel morceau. Ce qui va s'avérer étonnamment problématique...

 

Comment tester :

Un peu de rigueur... on ne peut se contenter d'écouter les morceaux l'un après l'autre et de choisir son préféré... d'abord parce que la mémoire étant loin d'être parfaite, il est facile d'oublier un défaut ou une qualité d'un modèle antérieur, et il est donc presque impossible de faire une comparaison efficace, surtout sur un si grand nombre de modèles, à la différence parfois subtile. Ensuite parce que le risque d'un biais inconscient n'est pas à négliger... parce qu'on a très envie que tel modèle gagne, on va lui trouver des qualités. Parce qu'on a très envie de tuer son chien, on va l'accuser d'avoir la rage... vous connaissez la chanson (désormais en version instrumentale mais ça ne change rien au problème !)

C'est pour cela qu'ont été inventés, à la base, les tests dits "AB/X". Le principe : "écoutez autant que vous voulez la version A, la version B... puis on vous passe une des deux versions mais on ne vous dit pas laquelle, on l'appelle X... saurez-vous dire s'il s'agit de la version A ou B ?"

Pas tout à fait adapté à notre problématique (6 modèles à tester, et moins la nécessité de dire lequel est lequel à l'aveugle, que de dire lequel est le meilleur). Nous avons donc opté pour un protocole légèrement différent. Le protocole dit du "Shoutout". Ça tombe bien, on a un logiciel qui fait aussi bien l'ABX que le Shoutout. Lacinato ABX Shoutouter, c'est son nom, est un logiciel gratuit qui propose les deux protocoles. C'est lui que nous avons utilisé pour notre comparatif.

 

 

 

Le principe est le suivant : nous lui donnons les différentes versions d'un même morceau. Lui les lit toutes de manière synchronisée, mais bien-sûr un seul est audible à la fois, et nous pouvons passer librement de l'un à l'autre sans avoir à interrompre le morceau... mais il nous cache lequel est lequel.  On garde donc le principe du test en aveugle, mais cette fois-ci il ne s'agit pas de détecter quel modèle est quel modèle, mais simplement de passer de l'un à l'autre, sans savoir auquel on a affaire, et de leur attribuer une note et/ou d'élire un préféré.

Nous avons procédé à trois types d'écoute :

  • Une écoute complète de chaque version d'une même musique, l'une après l'autre... pratique pour se donner une idée globale de chaque version, mais le problème est que le temps de finir d'écouter une version, on a déjà un peu oublié où étaient les qualités et les défauts des autres.
  • Une écoute d'extraits "longs" : nous avons écouté les morceaux par "tranches" d'une quinzaine de secondes en passant d'un modèle à l'autre en plein milieu et/ou en réécoutant chaque extrait avec un modèle différent.
  • Une écoute d'extraits très courts : là, on parle d'extraits de moins de 5 secondes, des passages sur lesquels on repérait une difficulté pour un modèle par exemple, pour voir si les autres avaient le même souci ou non.

Sur cette base, nous avons essayé de définir quels modèles nous ont le plus convaincu à chaque fois, lesquels se trouvaient dans le milieu, et lesquels étaient les plus décevants. Le tout avec une écoute au casque, sur une carte son dédiée avec un DAC convenable.

Nos résultats

Alors disons-le, nous avons un intrus ! Sur quatre morceaux testés, les trois premiers ont donné globalement des résultats identiques, mais pour le dernier, patatras ! Celui-ci décide de faire bande à part ! Nous lui consacreront donc un paragraphe distinct.

L'autre constatation, c'est qu'aucun des modèles n'est parfait. Ils sont tous différents et certains ont résisté avec brio à un passage sur lequel leurs petits camarades s'effondraient... et vice-versa ! Parfois, les petits camarades qui s'étaient effondrés au couplet, s'en sortent nettement mieux au refrain ou au moment des ad-libs... 

Globalement, les défauts peuvent être décrits comme reposant sur un axe : à l'extrême, le modèle laisse passer de la voix dans l'instrumentale (ou le contraire si vous vous intéressez surtout à la piste a cappella). À l'autre extrême, le modèle crée un "creux" dans la piste, ce qui donne une sensation désagréable de son brouillon, flou et incomplet. Un même modèle peut tantôt être sur un axe, tantôt sur l'autre, mais il n'arrive généralement pas d'avoir les deux défauts sur le même modèle au même moment. Idéalement, le modèle devrait être au milieu de l'axe : ni voix qui déborde sur l'instru, ni instru floue et incomplète.

Enfin, il y a des passages que, pour l'instant, aucun modèle ne gère correctement. Par exemple, tous, sans exception, font soudain ressortir la voix de Kokia à la toute fin du morceau. Certains un poil plus tard que d'autre, mais inévitablement, la voix de Kokia finit par ressurgir dans les ultimes secondes du fichier censé contenir exclusivement les instruments.

Les principaux enseignements :

Pour Michael Jackson, Fredericks Goldman Jones et Kokia, même résultat : 

  • En bas de classement, les modèles d'UVR5 nous ont globalement déçu. Le traitement se montrait souvent trop agressif, entraînant l'apparition de nombreux artefacts, tout en se faisant régulièrement piéger par des passages un peu difficile, soit à faire passer un violoncelle dans le fichier "voix", soit à faire passer un écho de voix dans le fichier "instrumentale". Globalement, les deux modèles se sont fait piéger par les chœurs d'À nos actes manqués à plusieurs reprises.
  • Suivi de peu par le MDX23 de Jarredou en version "réglages alternatifs", mais pas pour les mêmes raisons : celui-ci était globalement flatteur à l'oral, avec peu d'artefacts et peu d'effet de "trou" dans la version instrumentale... mais une fâcheuse tendance à laisser passer un petit peu de voix dans l'instrumentale. C'est subtil, mais audible.
  • Plus agréable, les modèles de MVSEP nous ont donné globalement satisfaction. Malgré la présence de quelques défauts ici ou là, ils se débrouillent plutôt bien. Dans l'ensemble, nous avons trouvé le modèle BS-RoFormer plus convaincant que le MelBand-RoFormer, qui se rapprochait souvent des résultats obtenus par le modèle MelBand d'UVR5.
  • Enfin, le Colab de Jarredou avec ses réglages de base domine nettement le classement. C'est de loin celui qui nous a paru le plus convaincant, avec des résultats plus naturels, moins d'artefacts, et le moins de défauts majeurs. Sans être parfait (aucun ne l'est), il nous semble offrir de loin le meilleur compromis sur l'axe dont on parlait plus haut : ni trop agressif (créant des "creux" dans la piste instrumentale), ni trop léger (laissant de la voix passer). C'est vraiment notre modèle préféré sur les pistes ordinaires.

Même si les résultats ne sont pas parfaits, nous avons tout de même été globalement impressionné par les résultats, même en milieu de peloton. L'époque Spleeter est vraiment loin. Tout semble globalement agréable à l'écoute, si on ne s'attarde pas trop sur les détails. Les différences sont globalement assez subtiles. Il devient vraiment possible d'écouter ces instrumentales et ces accappella pour son plaisir, et d'ailleurs, il nous est arrivé de nous laisser emporter par le plaisir et de laisser un morceau continuer quand on était censé faire des tests d'extraits courts. 

Les accapp' nous ont par ailleurs impressionnées par la capacité des modèles à séparer non seulement parfaitement la voix, mais aussi la respiration des chanteurs. Vraiment, ces modèles deviennent chouettes !

 

Le cas particulier du piano-voix :

Ah, ça... sur Renaud, ils ont eu du mal ! Tous ! Aucun modèle ne nous a vraiment satisfait. L'exercice paraît facile, mais le défaut, c'est que sur un morceau aussi sobre, le moindre petit défaut est audible au centuple. Surtout, ce qui nous a étonné, est que les résultats ne sont pas du tout les mêmes que pour les autres morceaux. Mais alors pas du tout !

  • En bas du classement, nous avons... les Colabs de Jarredou ! Eh oui, grosse surprise, nous l'avons été autant que vous quand nous avons demandé au logiciel de nous dévoiler les résultats après qu'on ait donné les notes à l'aveugle. Leur problème : ils laissent passer un peu de voix de Renaud. Pas beaucoup, c'est très subtil, très léger, mais c'est audible et dérangeant sur ce morceau.
  • En milieu de classement, nous avons l'Ensemble d'UVR5 et le BS-RoFormer de MVSEP. Eux ne laissent pas passer de voix à proprement parler, mais ils laissent passer certaines consonnes, notamment les sifflantes. C'est mieux, mais pas parfait.
  • En haut du classement, les MelBand-RoFormer d'UVR5 et de MVSEP. Avec un léger avantage à celui de MVSEP. C'est celui qui laisse le moins passer de parasites. Au prix, parfois, de légers artefacts, mais l'expérience nous a semblé malgré tout la plus agréable. Ceci étant dit, UVR5 se défend vraiment bien et montre avec cet exemple qu'il n'est pas toujours une solution à négliger !

 

Conclusions et démo

Pour que vous puissiez vous rendre compte aussi bien des qualités du modèle choisi, mais aussi du travail qui reste à accomplir et des défauts encore bien présents, une petite démo en direct de YouTube. Nous avons choisi de vous faire écouter les résultats du gagnant sur la chanson Kokia - For little tail.

Voici, pour commencer, l'originale, issu comme dit plus haut de la bande originale du jeu Tail Concerto et chanté par Kokia.

Et voici maintenant l'instrumentale que nous avons obtenu avec l'ensemble MVSep-MDX23-Colab de Jarredou, qui fait travailler trois modèles de concert (sans mauvais jeu de mot) :

Enfin, à toute fin utile, vous trouverez également la version acappella, en exclusivité sur notre chaîne YouTube. Il faudra donc vous rendre sur la chaîne YouTube d'EverydAI. Nous vous avons préparé une playlist pour l'occasion.

En résumé : un modèle - ou plutôt un assemblage de modèles - domine clairement le jeu aujourd'hui, mais il n'est pas pour autant une solution absolue puisque, comme on l'a vu, il se fait doubler dans certains cas particuliers. Reste que dans la plupart des chansons ordinaires, c'est la meilleure option... dommage qu'il soit si pénible à utiliser ! Google Colab n'est pas vraiment un outil conçu pour le grand public, plutôt pour les développeurs, bidouilleurs et chercheurs en IA... mais n'exagérons rien : il n'est pas nécessaire d'avoir fait polytechnique pour s'en servir.

Le deuxième enseignement, c'est que si l'on n'est pas satisfait d'un modèle qui nous plaît d'habitude, tout n'est pas perdu : d'autres, sur lesquels on ne parierait pas spontanément, peuvent venir à la rescousse. Notre conseil : téléchargez UVR5 si ce n'est déjà fait ! Il reste incroyablement versatile, gratuit, illimité, et pourrait vous surprendre.

Le troisième enseignement, c'est combien ces résultats sont temporaires... il s'agit d'une photographie à un instant T. Le modèle MelBand-RoFormer de MVSEP que nous avons utilisé (et qui nous a plu chez Renaud) est apparu il y a quelques jours. Quant à la solution de Jarredou, elle date de la mi-août. Autrement dit, vous nous auriez interrogé il y a trois mois, nos conclusions auraient peut-être été totalement différentes ! Et allez savoir ce qu'il en sera l'année prochaine... 

Nous pensons que ces résultats devraient se maintenir, grosso-modo et à peu de choses près, jusqu'à la fin 2024. Au delà de ça, pour l'année prochaine, nous ne jurons de rien.

Écrit le :

Par :

everydai