De nouveaux outils de clonage de voix par IA « alimentent » le feu de la désinformation


NEW YORK (AP) – Dans une vidéo d’un reportage du 25 janvier, le président Joe Biden parle de chars. Mais une version trafiquée de la vidéo a amassé des centaines de milliers de vues cette semaine sur les réseaux sociaux, ce qui donne l’impression qu’il a prononcé un discours qui attaque les personnes transgenres.

Les experts en criminalistique numérique affirment que la vidéo a été créée à l’aide d’une nouvelle génération d’outils d’intelligence artificielle, qui permettent à quiconque de générer rapidement un son simulant la voix d’une personne en quelques clics sur un bouton. Et bien que le clip de Biden sur les réseaux sociaux n’ait peut-être pas réussi à tromper la plupart des utilisateurs cette fois-ci, le clip montre à quel point il est désormais facile pour les gens de générer des vidéos « deepfake » haineuses et remplies de désinformation qui pourraient faire du mal dans le monde réel.

« Des outils comme celui-ci vont essentiellement ajouter plus de carburant au feu », a déclaré Hafiz Malik, professeur de génie électrique et informatique à l’Université du Michigan, qui se concentre sur la criminalistique multimédia. « Le monstre est déjà en liberté. »

Il est arrivé le mois dernier avec la phase bêta de la plate-forme de synthèse vocale d’ElevenLabs, qui permettait aux utilisateurs de générer un son réaliste de la voix de n’importe quelle personne en téléchargeant quelques minutes d’échantillons audio et en tapant n’importe quel texte à dire.

La startup affirme que la technologie a été développée pour dupliquer l’audio dans différentes langues pour les films, les livres audio et les jeux afin de préserver la voix et les émotions de l’orateur.

Les utilisateurs des médias sociaux ont rapidement commencé à partager un échantillon audio généré par l’IA d’Hillary Clinton lisant le même texte transphobe présenté dans le clip de Biden, ainsi que de faux clips audio de Bill Gates disant soi-disant que le vaccin COVID-19 cause le SIDA et l’actrice Emma Watson lisant soi-disant Le manifeste d’Hitler « Mein Kampf ».

Peu de temps après, ElevenLabs a tweeté que c’était voyant « un nombre croissant de cas d’utilisation abusive du clonage de la voix », et a annoncé qu’il explorait maintenant des garanties pour lutter contre les abus. L’une des premières étapes a consisté à rendre la fonctionnalité disponible uniquement pour ceux qui fournissent des informations de paiement. Au départ, les utilisateurs anonymes pouvaient accéder gratuitement à l’outil de clonage vocal. La société affirme également qu’en cas de problème, elle peut retracer tout son généré jusqu’au créateur.

Mais même la capacité de suivre les créateurs n’atténuera pas les dommages de l’outil, a déclaré Hany Farid, professeur à l’Université de Californie à Berkeley, qui se concentre sur la criminalistique numérique et la désinformation.

« Le mal est fait », a-t-il dit.

À titre d’exemple, Farid a déclaré que de mauvais acteurs pourraient faire bouger le marché boursier avec un faux son d’un PDG de premier plan disant que les bénéfices sont en baisse. Et il y a déjà un clip sur YouTube qui a utilisé l’outil pour modifier une vidéo pour la faire apparaître que Biden a déclaré que les États-Unis lançaient une attaque nucléaire contre la Russie.

Des logiciels gratuits et open-source avec les mêmes capacités ont également émergé en ligne, ce qui signifie que les paywalls sur les outils commerciaux ne sont pas un obstacle. À l’aide d’un modèle en ligne gratuit, l’AP a généré des échantillons audio pour ressembler aux acteurs Daniel Craig et Jennifer Lawrence en quelques minutes seulement.

« La question est de savoir où pointer du doigt et comment remettre le génie dans la bouteille ? » dit Malik. « Nous ne pouvons pas le faire. »

Lorsque les deepfakes ont fait la une des journaux il y a environ cinq ans, ils étaient assez faciles à détecter car le sujet ne clignait pas des yeux et le son semblait robotique. Ce n’est plus le cas à mesure que les outils deviennent plus sophistiqués.

La vidéo modifiée de Biden faisant des commentaires désobligeants sur les personnes transgenres, par exemple, a combiné l’audio généré par l’IA avec un vrai clip du président, tiré d’une émission en direct de CNN le 25 janvier annonçant l’envoi américain de chars en Ukraine.. La bouche de Biden a été manipulée dans la vidéo pour correspondre à l’audio. Alors que la plupart des utilisateurs de Twitter ont reconnu que le contenu n’était pas quelque chose que Biden était susceptible de dire, ils ont néanmoins été choqués de voir à quel point il semblait réaliste. D’autres semblaient croire que c’était réel – ou du moins ne savaient pas quoi croire.

Les studios hollywoodiens ont longtemps été capables de déformer la réalité, mais l’accès à cette technologie s’est démocratisé sans tenir compte des implications, a déclaré Farid.

« C’est une combinaison de la technologie basée sur l’IA très, très puissante, de la facilité d’utilisation, et du fait que le modèle semble être : mettons-le sur Internet et voyons ce qui se passera ensuite », a déclaré Farid.

L’audio n’est qu’un domaine où la désinformation générée par l’IA constitue une menace.

Générateurs d’images AI en ligne gratuits comme Midjourney et DALL-E peuvent produire des images photoréalistes de la guerre et des catastrophes naturelles dans le style des médias traditionnels avec une simple invite de texte. Le mois dernier, certains districts scolaires aux États-Unis ont commencé à bloquer ChatGPTqui peut produire du texte lisible – comme des dissertations d’étudiants – à la demande.

ElevenLabs n’a pas répondu à une demande de commentaire.





Source link -39