Créez des versions instrumentales de vos morceaux préférés avec UVR5

La stem-separation (aka unmixing ou demux), ou comment faire vos propres karaokés, et bien plus.

Dans mes jeunes années, j'avais une fascination pour les versions instrumentales de mes chansons préférées. Je rêvais de pouvoir entendre certaines chansons, sans le chant. De fait, cette obsession ne m'a jamais totalement quitté. Il y a des chansons comme ça dont je caresse encore l'espoir de mettre la main sur la véritable instrumentale studio. À défaut, j'ai joué avec les logiciels supposés capables d'extraire la piste instrumentale des chansons pour en faire des versions "karaoké", mais le moins que l'on puisse dire, c'est que pendant des années - des décennies même - les résultats n'étaient pas probants.

Un peu d'histoire

La technique qui prévalait jusqu'à l'arrivée des IA, c'était l'extraction du canal central. Principe : comme les voix sont souvent enregistrées avec un micro mono, on supprimait tous les sons identiques à droite et à gauche des pistes stéréo. En pratique, ça ne fonctionnait absolument pas. D'une part, il restait de gros morceaux de la voix, car cela fait bien longtemps que les voix sont dopées aux effets stéréo. D'autre part, on perdait aussi des tas de fréquences instrumentales identiques à gauche et à droite. Il en ressortait une bouillie rarement convaincante.

Et puis en 2019, patatras ! Breaking news ! Deezer Research, le laboratoire de recherche et développement de Deezer, présente Spleeter, le premier modèle de séparation de sources (stem separation) basé sur du machine learning. Non seulement il permettait de séparer voix et instrument en deux pistes distinctes, mais il proposait même de séparer voix, basse, batterie, piano et reste des instruments (modèles 4-stems et 5-stems).

Le résultat était loin d'être parfait, il restait encore de nombreux artefacts, la qualité n'était pas terrible, mais cela représentait déjà un progrès fulgurant par rapport aux algorithmes plus classiques, basés sur l'extraction du canal central, même les plus poussés.

Qu'importe : le concept était lancé et depuis, les projets se sont multipliés, souvent soutenus par des communautés open-source, repoussant toujours un peu plus loin la qualité des modèles et la fidélité du résultat final.

De nos jours, Spleeter est totalement dépassé, les alternatives sont nombreuses, mais j'ai envie de vous présenter un logiciel particulièrement complet et efficace : Ultimate Vocal Remover 5, ou UVR5 pour les intimes.

UVR5 : séparer des chansons en 2, 4, 5 ou même 6 pistes différentes

J'ai choisi de vous présenter UVR5 plutôt qu'un autre, car il multiplie les avantages sur ses alternatives :

Il est gratuit, libre et open-source (licence MIT)
Il propose certains des modèles les plus efficaces du moment
Il offre de grandes possibilités de personnalisation
Il tourne en local, sur votre PC, et ne vous rend pas dépendant d'un site tiers.
Il fonctionne sur toutes sortes de machines (un GPU est tout de même recommandé pour un traitement relativement rapide des morceaux, mais même pas obligatoire).

Une fois le logiciel lancé, vous découvrez cette interface, au premier abord peut-être intimidante, mais pas de panique, on va voir ensemble l'essentiel.

Interface principale d'UVR5

J'ai numéroté les différents éléments de l'interface de 1 à 7 pour vous aider à vous y retrouver.

C'est ici que vous choisissez le morceau à traiter.
Le dossier de destination, où UVR placera les pistes séparées.
Ici, vous pouvez choisir entre différentes grandes familles de modèles. Je vous conseille la famille MDX-Net pour séparer un morceau entre piste instrumentale et piste voix, et la famille Demucs pour séparer différents instruments (par exemple basse, guitare, batterie, piano et reste). Enfin, "Ensemble" est intéressant en ce qu'il permet de mixer plusieurs modèles et de prendre la moyenne des modèles, ce qui permet parfois d'améliorer encore un peu les résultats, au prix d'un traitement plus long.
Ici, vous choisissez le modèle exact à utiliser. Depuis cette liste déroulante, vous pouvez également accéder au menu de téléchargement de modèles supplémentaires. Là, ce sera à vous de faire vos essais pour voir quels modèles exacts vous offrent les résultats les plus satisfaisants. Pour récupérer une version instrumentale, je trouve que le modèle UVR-MDX-NET Inst HQ 3 (qu'il faudra télécharger via le menu approprié) offre un bon compromis, en laissant passer très peu de voix tout en perdant peu de données instrumentales, le tout avec peu d'artefacts. Pour un traitement plus agressif, Kim Vocal 2 peut donner de bons résultats aussi. Enfin, en installant le dernier patch (cf ci-dessous), les modèles BS-RoFormer-Viperx-1296 et BS-RoFormer-Viperx-1297 s'ouvrent à vous et offrent un résultat très intéressant, cumulant les avantages de Kim Vocal 2 (grosse agressivité ne laissant passer presque aucune voix, tout en limitant les artefacts autant que faire ce peut).
Ici, les principaux paramètres. Sauf à ne pas pouvoir faire autrement, laissez "GPU Conversion" coché, sans quoi le traitement sera beaucoup, beaucoup plus lent. Primary Step only et Secondary Step only permettent de ne conserver que l'une des deux pistes séparée (n'avoir qu'un fichier de voix ou un fichier d'instru, et pas un fichier de chaque). Enfin, le "sample mode" permet de ne traiter que 30 secondes d'un fichier. Idéal pour tester des tas de modèles en peu de temps.
Ce bouton permet d'accéder aux paramètres de l'application. Vous y trouverez aussi les paramètres avancés de certains modèles. Mais surtout, c'est aussi depuis ces paramètres que vous pourrez accéder à l'onglet "Download Center" qui vous permet de télécharger des tas de modèles en plus de ceux installés par défaut. Indispensable pour tirer pleinement parti d'UVR5 ! Les modèles les plus aboutis sont ceux de la catégorie "MDX-Net".
Quand tout est prêt, il suffit de cliquer et c'est parti !

Quelques secondes à quelques minutes plus tard, vos fichiers sont prêts. Envie de voir le résultat ?

L'unmixing : avant/après

Extrait de Angel - Lost European, ici dans sa version "complète", sans traitement d'aucune sorte.

^{Exzel Music Publishing (freemusicpublicdomain.com)}
^{Licensed under Creative Commons: By Attribution 3.0}
^{http://creativecommons.org/licenses/by/3.0/}

Même passage de la même chanson, piste instrumentale, obtenue via le modèle UVR-MDX-NET-Inst HQ 3.1.

Même passage de la même chanson, cette fois-ci en ne gardant que la partie vocale, obtenue par le même modèle.

Alors oui, certes, le résultat n'est pas parfait. Il y a occasionnellement des petits bouts de voix (les attaques surtout) qui apparaissent dans la piste instrumentale, et vice-versa. De plus, des artefacts sont présents, comme un mp3 mal compressé.

Il n'empêche que c'est tout à fait exploitable et que cela offre déjà de belles possibilités, aussi bien pour le plaisir de redécouvrir des morceaux d'une nouvelle manière, que pour se faire des karaoké sur mesure et égayer les soirées entre amis.

Et n'oubliez pas qu'UVR5 propose des modèles permettant de séparer certains instruments précis, comme la basse, la batterie, le piano ou encore la guitare. Cela fera plaisir aux apprentis musiciens de travailler leurs morceaux préférés en profitant d'une version "solo" de l'instrument de leur choix, sur les morceaux de leur choix.

Si toutefois ces résultats ne vous convenaient pas encore tout à fait, la bonne nouvelle, c'est que le domaine de l'unmixing évolue très vite. De nouveaux modèles sont en cours d'entrainement en ce moment même et devraient permettre de se rapprocher chaque jour un peu plus de la séparation parfaite.

Mise à jour du 16/07/2024 : D'ailleurs, de nouveaux modèles sont désormais disponibles, basés sur le principe du BandSplit RoFormer. On ne va pas rentrer dans les détails mais disons que les modèles basés sur BS-RoFormer sont à ce jour considérés comme les plus aboutis, offrant le meilleur rendu aussi bien côté acappella que côté instrumentale, bien que leur extrême agressivité puisse créer des effets de "creux" dans les instrumentales. Il s'agit aujourd'hui d'un complément indispensable aux modèles MDX standards.

Vous trouverez ci-dessous le patch d'UVR5 permettant de télécharger et d'installer quelques-uns de ces nouveaux modèles depuis l'application. Essayez-les et faites-vous votre idée. Au besoin, utilisez-le aux côtés d'un autre modèle grâce au Mode Ensemble pour profiter du meilleur des deux mondes !

Vous pouvez être sûr qu'on en reparlera sur EverydAI ! D'ici là, amusez-vous déjà avec UVR5, il y a déjà tant à découvrir !

Ressources :
Télécharger Ultimate Vocal Remover (UVR5) sur le site officiel Patch permettant de profiter des derniers modèles (BS-RoFormer par viperx) Page github du projet avec quelques informations et outils supplémentaires

Étiquettes

audio

unmixing

app

foss