[ad_1]
jec’est le clip stupide ou terrifiant ? Je ne peux pas décider. Pour être honnête, c’est un peu des deux.
« Je pense juste que j’adorerais me faire ratatouiller », commence une voix familière.
« Ratatouille ? » demande une autre voix reconnaissable.
« Comme, avoir un petit gars là-haut », répond la première voix. « Tu sais, me faire cuisiner de délicieux repas. »
Cela ressemble à Joe Rogan et Ben Shapiro, deux des voix les plus importantes et les plus reconnaissables du podcasting, plaisantant sur l’exécution potentielle dans le monde réel de la prémisse du film Pixar. Un argument circulaire s’ensuit. Qu’est-ce qui constitue « se faire Ratatouille’d » en premier lieu ? Les pouvoirs du rat s’étendent-ils au-delà de la cuisine ?
Un ami m’a récemment envoyé l’audio de cet échange abrutissant. J’ai laissé échapper un rire du ventre, puis j’ai rapidement envoyé un texto à plusieurs autres personnes, y compris un gars qui m’a dit un jour timidement qu’il écoutait régulièrement L’expérience Joe Rogan.
« Est-ce réel? » il a répondu par SMS.
Ce sont des voix d’IAJe lui ai dit.
« Waouh. C’est fou », a-t-il dit. « La politique va devenir sauvage. »
Je n’ai pas arrêté de penser à quel point il a raison. Les voix de ce clip, bien qu’elles ne soient pas des répliques parfaites de leurs sujets, sont profondément convaincantes d’une manière étrange. « Rogan » a l’inflexion familière du monde réel de Joe Rogan, sa curiosité à demi lapidée. « Shapiro », pour sa part, est là avec des réponses rapides et sa moquerie de marque.
La semaine dernière, j’ai contacté Zach Silberberg, qui a créé le clip à l’aide d’un outil en ligne de la start-up ElevenLabs de la Silicon Valley. « Eleven apporte les voix les plus convaincantes, les plus riches et les plus réalistes aux créateurs et aux éditeurs à la recherche des outils ultimes pour la narration », se vante le site Web de l’entreprise. Le mot narration fait beaucoup de travail dans cette phrase. Quand la narration se transforme-t-elle en désinformation ou en propagande ?
J’ai demandé à Silberberg si nous pouvions nous asseoir en personne pour parler des implications de sa blague virale. Bien qu’il n’ait pas conçu le produit, il avait déjà semblé le maîtriser d’une manière que peu d’autres avaient. Les mauvais acteurs suivraient-ils bientôt son exemple ? S’en souciait-il ? Était-ce sa responsabilité de s’en soucier ?
Silberberg est dans la fin de la vingtaine et travaille à la télévision à New York. Le matin de notre rencontre, il est entré dans un café TriBeCa dans un pull en lambeaux avec un Bart Simpson à l’envers cousu sur le devant. Il m’a raconté comment il avait été occupé à faire d’autres – selon ses propres termes – des clips « stupides ». Dans l’un, une version IA du président Joe Biden informe ses compatriotes américains qu’après avoir vu le flop de Cameron Crowe en 2011, On a acheté un zoo, lui, Biden, a aussi acheté un zoo. Dans un autre, AI Biden dit que la raison pour laquelle il n’a pas encore visité le site du déraillement du train East Palestine, Ohio, est parce que il s’est perdu sur l’île de Perdu. Bien qu’aucun morceau audio ne présente le bégaiement ou le changement de mots de Biden, comme il le fait souvent lorsqu’il parle en public, les deux clips ont la cadence distincte de Biden, ces montées et descentes familières. Les scripts, eux aussi, ont un côté indéniable de Biden.
« La raison pour laquelle je pense qu’ils sont drôles, c’est parce que vous savez qu’ils sont faux », m’a dit Silberberg. Il a dit que la conversation Rogan-Shapiro lui avait pris environ une heure et demie à produire – c’était censé être une blague, pas une tentative bien conçue pour tromper les gens. Quand je l’ai informé que mon ami qui écoutait Rogan pensait initialement que le clip de Ratatouille était authentique, Silberberg a paniqué : « Non ! Dieu non! » dit-il avec une grimace. « Cela, pour moi, c’est foutu. » Il secoua la tête. « J’essaye de pas tomber là-dedans, parce que je le rends tellement bizarre », a-t-il déclaré. « Je ne veux jamais créer quelque chose qui pourrait être confondu avec la réalité. » Comme tant d’autres impliquant l’IA ces derniers mois, il semblait déjà être trop tard.
Et si, au lieu d’un président en exercice parlant de la façon dont il regrette d’avoir acheté un zoo, une voix qui ressemblait assez à celle de Biden était «enregistrée» disant quelque chose de beaucoup plus néfaste? N’importe quel nombre de points de discussion Big Lie entraînerait instantanément un cycle de nouvelles. Imaginez une voix d’IA convaincante parlant de collecte de bulletins de vote ou de machines à voter piratées ; les électeurs complotistes seraient validés, tandis que d’autres pourraient simplement être confus. Et si la personnalité publique accusée – Biden, ou n’importe qui, d’ailleurs – ne pouvait pas immédiatement prouver qu’un clip viral, potentiellement mettant fin à sa carrière, était faux ?
One du majeur les scandales politiques du dernier quart de siècle impliquaient un enregistrement fragmentaire d’une voix désincarnée. « Quand tu es une star, ils te laissent faire », a proclamé le futur président Donald Trump. (Tu connais la suite.) Ce le clip était réel. Trump, étant Trump, a survécu au scandale et est allé à la Maison Blanche.
Mais, étant donné l’arsenal d’outils d’IA destinés au public qui s’emparent d’Internet, y compris le générateur de voix avec lequel Silberberg et d’autres shitposters ont joué, à quel point serait-il facile pour un mauvais acteur de créer un morceau de Accéder à Hollywood-style audio à l’approche des prochaines élections ? Et si ce clip avait été créé avec la touche d’un scénariste de télévision ? Il y a cinq ans, Jordan Peele est devenu viral avec une vidéo d’IA du président de l’époque, Barack Obama, disant « Killmonger avait raison », « Ben Carson est dans l’endroit englouti » et « Le président Trump est une merde totale et complète ». La voix était proche, mais pas si proche. Et parce que c’était une vidéo, les mouvements étranges de la bouche étaient un révélateur que le clip était faux. Les clips audio IA sont potentiellement beaucoup plus menaçants car le public a moins d’indices contextuels avec lesquels travailler. « Cela ne prend pas beaucoup de temps, ce qui est effrayant », a déclaré Silberberg.
Il a découvert que l’IA semble produire un travail plus convaincant lors du traitement de quelques mots de dialogue à la fois. Le clip de Rogan-Shapiro a été un succès grâce au « Who’s on first? aspect de va-et-vient de celui-ci. Il a téléchargé des échantillons audio existants à partir des archives en ligne massives de chaque hôte de podcast – trois de Shapiro, deux de Rogan – les a téléchargés sur le site Web d’ElevenLabs, puis a saisi son propre script. C’est le point où la plupart des amateurs échoueront probablement dans leur pêche à la traîne. Pour qu’un clip atterrisse, même une satire claire, la diction du sujet doit être à la fois crédible et familière. Vous devez clouer les Biden-ismes. Plus les phrases sont courtes, moins l’auditeur a de temps pour s’interroger sur la validité de la voix. De plus, Silberberg a appris que plus vous tapez, plus les voix de l’IA sont susceptibles d’enchaîner des phrases avec une ponctuation erronée ou d’autres fioritures vocales maladroites. S’en tenir à des extraits rapides permet de réessayer plus facilement certaines lignes du script pour perfectionner l’inflexion spécifique, plutôt que d’avoir à parcourir un paragraphe entier de dialogue. Or, nous en sommes là aujourd’hui, à 21 mois des prochaines élections fédérales. Ça va aller mieux, et plus effrayant, très vite.
S’il semble que l’IA soit partout à la fois en ce moment, avalant à la fois notre attention et Internet, c’est parce qu’elle l’est. Lors de la transcription de mon entretien avec Silberberg dans un document Google, la propre IA de Google a commencé à suggérer des mots à venir dans notre conversation au fur et à mesure que je tapais. La plupart des remplissages étaient proches, mais pas tout à fait exacts; Je les ai ignorés. Lundi, Mark Zuckerberg a déclaré qu’il créait « un nouveau groupe de produits de haut niveau chez Meta axé sur l’IA générative pour dynamiser notre travail dans ce domaine. » Cette nouvelle est arrivée quelques semaines seulement après Kevin Roose, de Le New York Times, a publié une histoire largement lue sur la façon dont il avait poussé l’outil Bing AI de Microsoft à dire une série de déclarations troublantes et chargées d’émotion. Quelques semaines auparavant, le DJ David Guetta a révélé qu’il avait utilisé une version IA de la voix d’Eminem dans une performance en direct – des paroles que le vrai Eminem n’avait jamais rappées. Ailleurs le mois dernier, le rédacteur en chef du magazine de science-fiction Clarkesworld a déclaré qu’il avait cessé d’accepter les soumissions parce qu’un trop grand nombre d’entre elles semblaient être des textes générés par l’IA.
Ce dimanche dernier, Sam Altman, PDG d’OpenAI, l’entreprise à l’origine de l’outil ChatGPT AI, a tweeté de manière cryptée : « Une nouvelle version de la loi de Moore qui pourrait bientôt commencer : la quantité d’intelligence dans l’univers double tous les 18 mois. » Altman a 37 ans, ce qui signifie qu’il est de la génération qui se souvient d’avoir vécu quelques vie quotidienne sans ordinateur. La génération de Silberberg, celle après celle d’Altman, ne le fait pas, et cette cohorte adopte déjà l’IA plus rapidement que le reste d’entre nous.
Lcomme beaucoup de GENSj’ai rencontré pour la première fois une voix d’IA « naturaliste » en regardant l’excellent documentaire d’Anthony Bourdain de l’année dernière, Roadrunner. La nouvelle de la curieuse décision des cinéastes d’inclure une brève et fausse voix off de feu Bourdain a dominé la couverture médiatique du film et, pour certains téléspectateurs, l’a rendu distrayant à regarder. (Vous vous êtes peut-être retrouvé à toujours écouter « le moment ».) Ils avaient tellement de matériel avec lequel travailler, y compris des heures de narration réelle de Bourdain. Qu’est-ce que le fait de simuler un bref instant a vraiment accompli ? Et pourquoi ne l’ont-ils pas révélé aux téléspectateurs?
« Mon opinion est que, déclaration générale, l’utilisation de la technologie de l’IA est assez sombre », a déclaré Silberberg. «La façon dont il se dirige est effrayante. Et il remplace déjà les artistes, et crée déjà des scénarios grossiers vraiment foutus.
Un bref aperçu de ces scénarios qui ont déjà vu le jour : une version IA de la lecture d’Emma Watson Mein Kampf, un IA Bill Gates « révélant » que le vaccin contre le coronavirus cause le SIDA, un IA Biden s’attaquant aux personnes transgenres. Des journalistes à Le bord ont créé leur propre AI Biden pour annoncer l’invasion de la Russie et valider l’une des théories du complot les plus toxiques de notre époque.
Le problème, essentiellement, est que beaucoup trop de gens trouvent les exemples cruels et nihilistes tout aussi drôles que la maîtrise absurde et à faible enjeu de la forme par Silberberg. Il m’a dit que lorsque le clip de Ratatouille a commencé à devenir viral, il a coupé son propre tweet, donc il ne sait toujours pas jusqu’où il est allé. Un bot l’a informé que le propriétaire de Twitter, Elon Musk, avait « aimé » la vidéo. Shapiro, pour sa part, a posté « LMFAO » et un emoji qui pleure de rire sur la copie carbone d’un autre compte Twitter du clip de Silberberg. Alors que lui et moi parlions des implications de son travail ce matin-là, il semblait devenir de plus en plus inquiet.
«Je suis déjà dans des eaux éthiques bizarres, parce que j’utilise la voix des gens sans leur consentement. Mais ce sont des personnalités publiques, des personnalités politiques ou des commentateurs publics », a-t-il déclaré. « Ce sont des questions auxquelles je suis aux prises – ce sont des choses auxquelles je n’ai pas complètement réfléchi jusqu’à la fin, où je me dis: » Oh oui, peut-être que je n’aurais même pas dû faire ça. Peut-être que je n’aurais même pas dû toucher à ces outils, car cela renforce l’idée qu’ils sont utiles. Ou peut-être que quelqu’un a vu la vidéo de Ratatouille et s’est dit : ‘Oh, je peux faire ça ? Laissez-moi faire. Et j’ai exposé un tas de fans de Rogan de droite à l’idée qu’ils peuvent falsifier une personnalité publique. Et ça me fait peur. Ce n’est pas mon but. Mon but est de faire rire les gens. Mon but est de faire rire les gens un peu.
Ni la Maison Blanche ni ElevenLabs n’ont répondu à ma demande de commentaire sur les effets potentiels de ces vidéos sur la politique américaine. Il y a plusieurs semaines, après que la première série de trolls ait utilisé la technologie d’Eleven pour ce que la société a décrit comme des « fins malveillantes », Onze a répondu avec un long fil de tweet des mesures qu’il prenait pour lutter contre les abus. Bien que la plupart d’entre eux soient passe-partout, un changement notable restreignait la création de nouveau clones de voix aux utilisateurs payants uniquement, en pensant qu’une personne fournissant un numéro de carte de crédit est moins susceptible de troller.
Vers la fin de notre conversation, Silberberg a pris un coup d’optimisme. « Au fur et à mesure que ces outils progressent, des contre-mesures progresseront également pour pouvoir détecter ces outils. ChatGPT a commencé à gagner en popularité et, en quelques jours, quelqu’un a écrit quelque chose qui pouvait détecter si quelque chose était ChatGPT », a-t-il déclaré. Mais ensuite, il a pensé davantage à l’avenir : « Je pense que dès que vous essayez de tromper quelqu’un, vous essayez de prendre le travail de quelqu’un, vous essayez de renforcer un programme politique – vous savez, vous pouvez faire la satire de quelque chose, mais à l’instant où tu essaies de convaincre quelqu’un que c’est réel, ça me glace. Cela me secoue au plus profond de moi-même.
Sur son site Web, Eleven annonce toujours fièrement sa « qualité étrange », se vantant que son modèle « est conçu pour saisir la logique et les émotions derrière les mots ». Bientôt, l’élément troublant de la vallée étrange pourrait être remplacé par quelque chose qui ne se distingue pas de l’intonation humaine. Et puis même les trucs drôles, comme le travail de Silberberg, peuvent cesser de nous faire rire.
[ad_2]
Source link -30