Après ChatGPT et DALL·E, voici VALL-E – l’IA de synthèse vocale qui imite la voix de n’importe qui


L’année dernière a vu l’émergence d’outils d’intelligence artificielle (IA) capables de créer des images, des illustrations ou même des vidéos avec une invite de texte.

Il y a également eu des avancées majeures dans l’écriture de l’IA, le ChatGPT d’OpenAI provoquant une excitation – et une peur – généralisées quant à l’avenir de l’écriture.

Maintenant, quelques jours seulement après le début de 2023, un autre cas d’utilisation puissant de l’IA est entré en scène – un outil de synthèse vocale qui peut imiter de manière impeccable la voix d’une personne.

Développé par Microsoft, VALL-E peut prendre un enregistrement de trois secondes de la voix de quelqu’un et reproduire cette voix en transformant des mots écrits en discours, avec une intonation et une émotion réalistes en fonction du contexte du texte.

Formé avec 60 000 heures d’enregistrements de discours en anglais, il peut prononcer un discours en «situation zéro», c’est-à-dire sans aucun exemple préalable ni formation sur un contexte ou une situation spécifique.

Présentation de VALL-E dans un article publié par l’Université Cornellles développeurs ont expliqué que les données d’enregistrement se composaient de plus de 7 000 locuteurs uniques.

L’équipe affirme que son système Text To Speech (TTS) a utilisé des centaines de fois plus de données que les systèmes TTS existants, ce qui les a aidés à surmonter le problème du zéro coup.

L’outil n’est actuellement pas disponible pour un usage public – mais il soulève des questions sur la sécurité, étant donné qu’il pourrait être utilisé pour générer n’importe quel texte provenant de la voix de n’importe qui.

Microsoft parie gros sur l’IA

Ses créateurs ont cependant fourni une démoprésentant un certain nombre d’invites de haut-parleur de trois secondes et une démonstration de la synthèse vocale en action, avec la voix correctement imitée.

Parallèlement à l’invite du haut-parleur et à la sortie de VALL-E, vous pouvez comparer les résultats avec la « vérité terrain » – le locuteur réel lisant le texte de l’invite – et le résultat « de référence » de la technologie TTS actuelle.

Microsoft a beaucoup investi dans l’IA et est l’un des bailleurs de fonds d’OpenAI, la société à l’origine de ChatGPT et de DALL-E, un outil de conversion de texte en image ou d’art.

Le géant du logiciel a investi 1 milliard de dollars (930 millions d’euros) dans OpenAI en 2019, et un rapport publié cette semaine sur semafor.com a déclaré qu’il envisageait d’investir 10 milliards de dollars supplémentaires (9,3 milliards d’euros) dans l’entreprise.



Source link -32