Microsoft présente VALL-E, son intelligence artificielle capable d’imiter n’importe quelle voix humaine en quelques secondes


Microsoft a présenté son nouveau modèle d’intelligence artificielle VALL-E. Le système peut imiter une voix humaine sur la base d’échantillons de trois secondes seulement.

Nous savons que l’intelligence artificielle s’est développée et a gagné en popularité récemment. Des systèmes qui créent des images à partir de textes tels que Midjourney et DALL-E, des modèles tels que ChatGPT, qui répondaient à tout ce que nous demandions, ont eu un impact dans le monde entier. Maintenant c’est de Microsoft Un tout nouveau mouvement d’intelligence artificielle est arrivé.

Géant américain de la technologie, modèle d’intelligence artificielle capable de créer de la voix à partir de texte ‘VALPOUR’introduit le Le système, qui peut révolutionner l’intelligence artificielle, peut facilement traduire les voix humaines. capable d’imiter exprimé. Bien sûr, ce type de technologie a également suscité quelques inquiétudes.

Peut imiter des sons en utilisant seulement un échantillon de 3 secondes

Selon Ars Technica, VALL-E seulement un échantillon audio de trois secondes Il peut imiter la voix d’un humain. En fait, ce qu’elle peut faire ne se limite pas à cela, l’intelligence artificielle peut même produire des résultats qui correspondent au ton de la voix en fonction de l’émotion de l’orateur.

Microsoft a annoncé que VALL-E, un modèle de langage, a été introduit par Meta en octobre 2022.Encodec’ Il déclare avoir bénéficié de la soi-disant technologie. Contrairement aux systèmes similaires que nous voyons normalement, le modèle tire des conclusions à partir du texte et des sons. Fondamentalement, comment une personne sonne est en train d’analyserGrâce à EnCodec, il divise ces informations en composants séparés et fait correspondre les données d’entraînement. En conséquence, différentes phrases sont produites en imitant le son de l’exemple.

Dans un article partagé sur l’intelligence artificielle, des chercheurs ont utilisé VALL-E, plus de 7 000 de l’orateur 60 000 heures d’anglais Il déclare s’être entraîné avec des enregistrements audio dans sa langue. On dit que pour que le système produise un bon résultat, le son dans les échantillons doit être proche du son dans les données d’apprentissage.

NOUVELLES CONNEXES

Des momies vieilles de milliers d’années ravivées grâce à l’intelligence artificielle

Microsoft a publié quelques exemples de VALL-E sur GitHub. Lorsque les exemples sont examinés, on voit que l’intelligence artificielle apparaît à certains endroits avec la voix d’un robot, mais à d’autres, elle est étonnamment surprenante. réaliste il semble que. Toujours dans les exemples, VALL-E préserve la tonalité de l’orateur ; même résultat par environnement peut également être vu. Par exemple, si l’orateur d’origine parle depuis un endroit où résonne l’écho, le système produit le son en conséquence.

Ce type de technologie n’est pas sans risques.

Bien sûr, ce type de technologie est quelque peu alarmant. Des personnes malveillantes peuvent donner l’impression qu’elles ont dit quelque chose qu’elles n’ont pas dit, peut se faire passer pour et peut entraîner une augmentation des incidents tels que la fraude. Vous pouvez y voir les risques de deepfake, qui sont devenus populaires ces derniers temps. Code open source de Microsoft en raison des risques pas à faire Cependant, nous pouvons dire que des technologies similaires peuvent entraîner ces risques.

NOUVELLES CONNEXES

L’intelligence artificielle ChatGPT commence à être interdite dans les écoles pour avoir nui à l’éducation des élèves

Source :
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/





Source link -52