Icône En Bref

Voice Engine : le nouveau modèle de clônage vocal d'OpenAI

Flemme de lire ? Laissez Voice Engine lire à votre place avec votre voix

S'il est un domaine de l'IA très actif, c'est celui du clonage vocal. Fascinant pour les uns, inquiétant pour les autres, c'est en tout cas un domaine où les recherches avancent vite et les solutions se multiplient, chacune essayant de dépasser ses concurrents. Dernière née d'OpenAI, la solution Voice Engine s'annonce assez prometteuse.

Annoncé en fin de semaine dernière, Voice Engine n'a pas, contrairement à RVC, pour vocation à plaquer la voix clonée sur une voix "porte-greffe", mais à servir de moteur de voix en text-to-speech (TTS). Le principe est donc de lire n'importe quel texte, avec n'importe quelle voix. Ce n'est certes pas le premier modèle à proposer ce genre de service, mais la nouvelle génération proposée par OpenAI a un argument de taille à faire valoir : il suffirait d'à peine quinze secondes de voix pour réussir un clone pertinent, parfaitement adapté au text-to-speech.

Le service n'étant pas encore à la disposition du public, nous n'avons pas pu vérifier ces affirmations de façon indépendante, mais la démo présentée sur le blog d'OpenAI est en tout cas impressionnante : il suffit de quinze secondes de référence pour obtenir apparemment une voix effectivement très ressemblante à l'originale. Bien entendu, OpenAI fait valoir des usages responsables, voire altruistes, de sa technologie, indiquant que le service pourrait permettre de redonner la parole à des gens qui ont perdu leur voix ou leur capacité d'élocution.

La réalité, sans doute un peu plus cynique, est que l'usage premier qui sera fait d'un tel service sera sûrement de remplacer des narrateurs humains, dans divers médias et notamment dans la lecture d'ebooks. D'autant que les tarifs qui ont fuité s'y prêtent bien : environ 15$ pour 162 500 mots, soit près de 750 pages. De quoi faire la lecture d'un gros audiobook pour un prix défiant toute concurrence.

Plus embêtant : à 15 secondes d'audio pour réussir un clonage convaincant, les mésusages de la technologie sont facile à envisager... il suffirait ainsi de récupérer le message du répondeur téléphonique d'une personne pour pouvoir usurper sa voix au téléphone sans difficulté. D'autant que ce tarif le met à portée de toutes les bourses, y compris de particuliers malveillants, et ne le limite pas à des sociétés ayant pignon sur rue et des comptes à rendre.

Reste donc à voir la forme qu'OpenAI voudra donner à sa version publique une fois celle-ci disponible.

Écrit le :

Par :

everydai