Préparez-vous pour le Textpocalypse


Et si, à la fin, nous n’étions pas tués par des missiles balistiques intercontinentaux ou le changement climatique, pas par des agents pathogènes microscopiques ou un météore de la taille d’une montagne, mais par… un texte ? Texte simple, clair et sans fioritures, mais en quantités si immenses qu’elles sont presque inimaginables – un tsunami de texte emporté dans une cataracte de contenu qui s’auto-entretient et qui rend fonctionnellement impossible de communiquer de manière fiable dans n’importe quel réglage numérique?

Notre rapport à l’écrit est en pleine mutation. L’intelligence artificielle dite générative s’est généralisée grâce à des programmes comme ChatGPT, qui utilisent de grands modèles de langage, ou LLM, pour prédire statistiquement la lettre ou le mot suivant dans une séquence, produisant des phrases et des paragraphes qui imitent le contenu de tous les documents sur lesquels ils sont formés. . Ils ont apporté quelque chose comme la saisie semi-automatique à l’intégralité d’Internet. Pour l’instant, les gens tapent encore les invites réelles de ces programmes et, de même, les modèles sont encore (principalement) formés sur la prose humaine au lieu de leurs propres opus fabriqués par la machine.

Mais les circonstances pourraient changer, comme en témoigne la publication la semaine dernière d’une API pour ChatGPT, qui permettra d’intégrer la technologie directement dans des applications Web telles que les médias sociaux et les achats en ligne. Il est maintenant facile d’imaginer une configuration dans laquelle les machines pourraient inciter d’autres machines à publier du texte à l’infini, inondant Internet de texte synthétique dépourvu d’agence ou d’intention humaine : de la pâte grise, mais pour le mot écrit.

C’est exactement ce scénario qui s’est déjà joué à petite échelle lorsque, en juin dernier, une version modifiée de GPT-J, un modèle open source, a été intégrée au babillard anonyme 4chan et a publié 15 000 messages largement toxiques en 24 heures. Supposons que quelqu’un configure un système pour qu’un programme comme ChatGPT s’interroge à plusieurs reprises et publie automatiquement le résultat sur des sites Web ou des médias sociaux ; un flux de contenu itératif sans fin qui ne fait guère plus que gêner tout le monde, mais qui est également (inévitablement) réabsorbé dans les ensembles de formation pour les modèles publiant leur propre nouveau contenu sur Internet. Et qu’est-ce qui se passerait si beaucoup de personnes – qu’elles soient motivées par l’argent publicitaire, ou par des agendas politiques ou idéologiques, ou simplement pour faire des bêtises – devaient commencer à le faire, avec des centaines, puis des milliers et peut-être des millions ou des milliards de messages de ce type chaque jour inondant l’internet ouvert, se mêlant à résultats de recherche, se répandant sur les plateformes de médias sociaux, infiltrant les entrées de Wikipédia et, surtout, fournissant du fourrage à exploiter pour les futures générations de systèmes d’apprentissage automatique ? De grands éditeurs expérimentent déjà : le site d’actualités technologiques CNET a publié des dizaines d’histoires écrites avec l’aide de l’IA dans l’espoir d’attirer du trafic, dont plus de la moitié se sont avérées à un moment donné contenir des erreurs. Nous pouvons rapidement nous retrouver face à une textocalypse, où le langage écrit par machine devient la norme et la prose écrite par l’homme l’exception.

Comme les précieux coups de crayon d’un calligraphe, un document humain en ligne pourrait devenir une rareté à conserver, protéger et préserver. Pendant ce temps, les fondements algorithmiques de la société fonctionneront sur une base de connaissances textuelles de plus en plus artificielle, ses origines dans le brassage incessant des modèles de langage. Considérez-le comme un événement de spam planétaire continu, mais contrairement au spam, pour lequel nous avons des protections plus ou moins efficaces, il peut s’avérer qu’il n’existe aucun moyen fiable de signaler et de filtrer la prochaine génération de texte créé par la machine. « Ne crois pas tout ce que tu lis » peut devenir « Ne crois pas quoi que ce soit vous lisez » lorsqu’il est en ligne.


C’est un résultat ironique pour le texte numérique, qui a longtemps été considéré comme un format d’autonomisation. Dans les années 1980, les hackers et les amateurs vantaient les vertus du fichier texte : un document ASCII qui oscillait facilement entre les frêles connexions modem qui constituaient la scène du tableau d’affichage commuté. Plus récemment, les partisans de ce que l’on appelle l’informatique minimale ont adopté le texte brut comme un format à faible empreinte carbone facilement partageable quelles que soient les contraintes de la plate-forme.

Mais le texte brut est également le format numérique le plus facile à automatiser. Les gens le font sous une forme ou une autre depuis les années 1950. Aujourd’hui, les normes de l’industrie culturelle contemporaine sont en bonne voie d’automatisation et d’optimisation algorithmique du langage écrit. Les fermes de contenu qui produisent de la prose de mauvaise qualité pour attirer les logiciels publicitaires utilisent ces outils, mais elles dépendent toujours de légions de créatifs sous- ou au chômage pour enchaîner les caractères en mots appropriés, les mots en phrases lisibles, les phrases en paragraphes cohérents. Une fois que l’automatisation et l’augmentation de cette main-d’œuvre seront possibles, quelle incitation y aura-t-il à la maîtriser ?

William Safire, qui a été parmi les premiers à diagnostiquer la montée du « contenu » en tant que catégorie Internet unique à la fin des années 1990, a également été peut-être le premier à souligner que le contenu n’a besoin d’avoir aucun rapport avec la vérité ou l’exactitude afin de remplir ses fonctions de base. fonction, qui est simplement d’exister; ou, comme Kate Eichhorn l’a soutenu dans un livre récent sur le contenu, circuler. C’est parce que l’appétit pour le « contenu » consiste au moins autant à créer de nouvelles cibles pour les revenus publicitaires qu’à assurer la subsistance d’un public humain. Cela ne veut rien dire des agendas encore plus sombres, tels que le type de guerre de l’information que nous voyons maintenant dans la sphère géopolitique mondiale. Le chercheur en intelligence artificielle Gary Marcus a démontré l’apparente facilité avec lesquels les modèles de langage sont capables de générer un récit grotesquement déformé du 6 janvier 2021, qui pourrait être transformé en arme de désinformation à grande échelle.

Il y a encore une autre dimension ici. Le texte est un contenu, mais c’est un type particulier de contenu, un méta-contenu, si vous voulez. Sous la surface de chaque page Web, vous trouverez du texte (des instructions entre crochets ou du code) indiquant son apparence et son comportement. Les navigateurs et les serveurs se connectent en échangeant du texte. La programmation se fait en texte brut. Les images, la vidéo et l’audio sont tous décrits, étiquetés, avec du texte appelé métadonnées. Le Web est bien plus que du texte, mais tout sur le Web est du texte à un niveau fondamental.

Pendant longtemps, le paradigme de base a été ce que nous avons appelé le « web en lecture-écriture ». Nous avons non seulement consommé du contenu, mais nous pouvions également le produire, en participant à la création du Web par le biais de modifications, de commentaires et de téléchargements. Nous sommes maintenant sur le point de devenir quelque chose qui ressemble beaucoup plus à un « web d’écriture-écriture » : le Web s’écrivant et se réécrivant lui-même, et peut-être même recâblage lui-même Dans le processus. (ChatGPT et ses semblables peuvent écrire du code aussi facilement qu’ils peuvent écrire de la prose, après tout.)

Nous sommes essentiellement confrontés à une crise de spam sans fin, une fusion débilitante de la paternité humaine et de la machine. Extrait du livre de Finn Brunton de 2013, Spam : une histoire de l’ombre d’Internet, nous en apprenons davantage sur les méthodes existantes de diffusion de contenu fallacieux sur Internet, telles que les sites Web « bifacés » qui présentent des pages conçues pour les lecteurs humains et d’autres qui sont optimisées pour les robots d’exploration qui peuplent les moteurs de recherche ; des e-mails composés comme un pastiche d’œuvres littéraires célèbres récoltées à partir de corpus en ligne tels que Project Gutenberg, pour mieux contourner les filtres (« litspam ») ; des réseaux entiers de blogs peuplés de contenus autonomes pour générer des liens et du trafic (« splogs ») ; et le «journalisme algorithmique», où des reportages automatisés (sur des sujets tels que les résultats sportifs, le téléscripteur boursier et les secousses sismiques) sont diffusés sur les fils. Brunton détaille également les origines des botnets qui ont atteint l’infamie lors du cycle électoral de 2016 aux États-Unis et du Brexit au Royaume-Uni.

Tous ces phénomènes, sans parler du spam de Viagra de variété de jardin qui était autrefois une telle nuisance, sont des fonctions du texte – plus de texte que nous ne pouvons l’imaginer ou le contempler, seulement les plus infimes fragments jamais aperçus par les globes oculaires humains, mais qui obstrue néanmoins les serveurs, les câbles de télécommunications et les centres de données : « 120 milliards de messages par jour déferlant dans une marée grise de texte à travers le monde, ruisselant à travers les filtres, aussi terne que le smog », comme le dit Brunton.

Nous avons souvent parlé d’Internet comme d’un formidable épanouissement de l’expression humaine et de la créativité. Rien de moins qu’un « World Wide Web » de connectivité bourdonnante. Mais il existe un argument très solide selon lequel, probablement dès le milieu des années 1990, lorsque les intérêts des entreprises ont commencé à s’implanter, il était déjà en passe de devenir quelque chose de très différent. Non seulement commercialisé au sens habituel, le tissu même du réseau s’est transformé en un moteur pour le capital monnayage. Le spam, dans toute sa variété hétéroclite et menaçante, nous apprend que le web s’écrit déjà depuis un certain temps. Maintenant, toutes les logiques nécessaires – commerciales, technologiques et autres – peuvent enfin être en place pour une textocalypse accélérée.


« Un besoin urgent s’est fait sentir pour que quelqu’un écrive 300 mots de [allegedly] des trucs marrants pour un numéro de @outsidemagazine qu’on ferme. Je l’ai frappé sur les touches Chiclet de mon ordinateur portable pendant la première moitié du Super Bowl * en * buvant une bière », Alex Heard, Dehorsdirecteur de la rédaction, tweeté le mois dernier. « C’est sûrement ma plus belle heure. »

Le tweet est un humour d’autodérision avec une touche d’humilité, tout à fait banal et inoffensif comme le dit Twitter. Mais, apparaissant dans mon flux alors que j’écrivais cet article, cela m’a fait réfléchir. L’écriture est souvent peu glamour. C’est du travail; c’est un travail qui doit être fait, parfois même pendant le grand match. Le tweet de Heard a capturé la réalité d’un très grand nombre d’écritures en ce moment, en particulier de contenu écrit pour le Web : axé sur les tâches, achevé selon les spécifications, dans les délais et sous la pression externe.

Cet énorme milieu de gamme de l’écriture quotidienne – le contenu – est l’endroit où l’IA générative commence déjà à s’imposer. Le premier indicateur est l’intégration dans un logiciel de traitement de texte. ChatGPT sera testé dans Office ; il se peut aussi qu’elle figure bientôt dans les notes de votre médecin ou dans le dossier de votre avocat. C’est aussi peut-être un partenaire silencieux dans quelque chose que vous avez déjà lu en ligne aujourd’hui. Incroyablement, une grande université de recherche a reconnu avoir utilisé ChatGPT pour rédiger un message électronique à l’échelle du campus en réponse à la fusillade de masse dans l’État du Michigan. Pendant ce temps, l’éditeur d’un journal de science-fiction de longue date a publié des données qui montrent une augmentation spectaculaire des soumissions de spam à partir de la fin de l’année dernière, coïncidant avec le déploiement de ChatGPT. (Des jours plus tard, il a été forcé de fermer soumissions à cause du déluge de contenu automatisé.) Et Amazon a vu un afflux de titres qui revendiquent la «co-auteur» ChatGPT sur sa plate-forme Kindle Direct, où les économies d’échelle signifient que même une poignée de ventes rapportera de l’argent.

Qu’une textocalypse entièrement automatisée se produise ou non, les tendances ne font que s’accélérer. D’un morceau de fiction de genre au rapport de votre médecin, vous ne pourrez peut-être pas toujours présumer la paternité humaine derrière tout ce que vous lisez. L’écriture, mais plus particulièrement le texte numérique – en tant que catégorie d’expression humaine – s’éloignera de nous.

La fenêtre « Propriétés » du document dans lequel je travaille répertorie un total de 941 minutes d’édition et une soixantaine de révisions. C’est plus de 15 heures. Des paragraphes entiers ont été supprimés, insérés et supprimés à nouveau, tout cela avant même qu’ils n’arrivent à un éditeur de copie ou à un vérificateur de faits.

Suis-je inquiet que ChatGPT aurait pu mieux faire ce travail ? Non. Mais je suis peur que cela n’ait pas d’importance. Balayés en tant que données de formation pour la prochaine génération d’IA générative, mes mots ici ne pourront pas s’aider eux-mêmes : ils seront également des combustibles fossiles pour la prochaine textpocalypse.

Spam : une histoire fantôme d’Internet

Par Finn Brunton


​Lorsque vous achetez un livre en utilisant un lien sur cette page, nous recevons une commission. Merci de votre soutient L’Atlantique.





Source link -30