L’art génératif est stupide


Un petit ami qui passe juste par les motions. Un conjoint usé dans l’ornière de l’habitude. Le message d’un voyageur en décalage horaire sur le désir d’épuisement. Un baiser réprimé, importun ou au mauvais moment. Ce sont quelques-unes des interprétations qui se sont répercutées dans mon cerveau après avoir vu un bagatelle étrange d’art numérique par Emoji Mashup Bot, un compte Twitter populaire mais disparu qui combinait les parties de deux emoji dans de nouvelles compositions surprenantes et étonnamment résonnantes. Le bot avait pris la main et les yeux de l’emoji ? bâillant et les avait écrasés avec la bouche de l’emoji ? au cœur qui s’embrassait. C’est ça.

Comparez cette méthode simple avec des outils génératifs basés sur l’apprentissage automatique soi-disant plus sophistiqués qui sont devenus populaires au cours de la dernière année. Lorsque j’ai demandé à Midjourney, un générateur d’art basé sur l’IA, de créer un nouvel emoji basé sur ces deux mêmes, il a produit des compositions qui étaient certainement emojiform mais ne possédaient rien du style ou de la signification du simple mashup : une série de jaune, coeur- corps en forme avec des langues qui sortent. L’un semblait manger une autre langue. Tous m’ont frappé comme le genre de monstruosités qui pourraient être offertes comme prix pour des jeux de carnaval, ou comme autocollants livrés avec le courrier indésirable de collecte de fonds pour le cancer des enfants.

Une des créations de Midjourney basée sur une idée du Emoji Mashup Bot.

ChatGPT, le bot chéri de génération de texte, n’a pas beaucoup mieux réussi. Je lui ai demandé de générer des descriptions de nouveaux emoji basés sur des parties de celles existantes. Ses idées étaient belles mais banales : un emoji « soleil béant », avec un visage jaune et une bouche ouverte, pour représenter une journée endormie ou paresseuse ; un emoji « multitâche », avec des yeux regardant dans différentes directions, pour représenter l’acte de jongler avec plusieurs tâches à la fois. J’ai renvoyé ces descriptions dans Midjourney et j’ai obtenu des résultats compétents mais fades: un ensemble de soleils hurlants, une série d’yeux sur un visage jaune dégoulinant du haut avec un limon noir ressemblant à du goudron.

J’aurais peut-être pu rédiger de meilleures invites ou passer plus de temps à affiner mes résultats dans ChatGPT et Midjourney. Mais ces deux programmes sont le summum de la recherche sur la créativité générative axée sur l’IA, et lorsqu’il s’agissait de créer des emoji expressifs et nouveaux, ils ont été battus par un programme informatique extrêmement simple qui sélectionne les parties du visage d’un chapeau et les colle ensemble.

Les gens ont des rêves pour la créativité de l’IA. Ils rêvent d’ordinateurs rêvant, pour commencer : qu’une fois alimentés par des téraoctets de données texte et image, les logiciels peuvent déployer quelque chose comme une imagination artificielle pour auteur fonctionne plutôt que de simplement les produire. Mais ce rêve implique une vanité : que les générateurs d’IA tels que ChatGPT, DALL-E et Midjourney peuvent accomplir quelconque sorte de créativité avec autant de facilité que de performance. Leurs créateurs et défenseurs les présentent comme capables de s’attaquer à toutes les formes d’intelligence humaine – comme tout générateur.

Et non sans raison : ces outils peuvent générer une version de presque n’importe quoi. Beaucoup de ces versions sont fausses ou trompeuses ou même potentiellement dangereuses. Beaucoup sont également inintéressants, comme le montrent les exemples d’emoji. Il s’avère qu’utiliser un outil logiciel capable de créer une chose particulière est un peu différent – et beaucoup plus gratifiant – que d’en utiliser un qui peut créer n’importe quoi.

Kate Compton, professeur d’informatique à la Northwestern University, qui crée des logiciels d’art génératif depuis plus d’une décennie, ne pense pas que ses outils soient artificiellement intelligents, ou intelligents du tout. « Quand je fabrique un outil », m’a dit Compton, « j’ai créé une petite créature qui peut fabriquer quelque chose. » Que quelque chose est généralement plus expressif qu’utile : ses bots imaginent les pensées intérieures d’un Tesla autonome perdue et faire des dessins de vaisseau spatial extraterrestre hypothétique. Offre de gadgets similaires recettes de cocktails hipsters ou nommer de fausses villes britanniques. Quel que soit leur objectif, Compton n’aspire pas à ce que des générateurs de logiciels comme ceux-ci maîtrisent leur domaine. Au lieu de cela, elle espère qu’ils en offriront « la version minuscule, un peu stupide ».

C’est loin de l’ambition du créateur de ChatGPT, OpenAI : construire une intelligence artificielle générale, « des systèmes hautement autonomes qui surpassent les humains dans les travaux les plus précieux sur le plan économique ». Microsoft, qui a déjà investi 1 milliard de dollars dans OpenAI, serait en pourparlers pour injecter 10 milliards de dollars supplémentaires dans l’entreprise. Ce genre d’argent suppose que la technologie peut générer un énorme profit futur. Ce qui ne fait que rendre l’affirmation de Compton plus choquante. Et si tout cet argent poursuivait une mauvaise idée ?

L’un des outils les plus performants de Compton est un générateur appelé Tracery, qui utilise des modèles et des listes de contenu pour générer du texte. Contrairement à ChatGPT et à ses cousins, qui sont formés sur des ensembles de données volumineux, Tracery oblige les utilisateurs à créer une structure explicite, appelée « grammaire sans contexte », comme modèle pour sa sortie. L’outil a été utilisé pour créer des robots Twitter de diverses formes, y compris emplacements de réflexion et paysages abstraits.

Une grammaire sans contexte fonctionne un peu comme une Mad Lib imbriquée. Vous rédigez un ensemble de modèles (par exemple : « Désolé, je n’ai pas réussi à [event]. J’avais [problem]. » ) et du contenu pour remplir ces modèles (les problèmes peuvent être « un accroc », « un caprice », « une diarrhée explosive », « un [conflict] avec moi [relative]”), et la grammaire les met ensemble. Cela oblige l’auteur de l’art génératif à considérer la structure de la chose qu’il veut générer, plutôt que de demander au logiciel une sortie, comme il pourrait le faire avec ChatGPT ou Midjourney. Le créateur de l’Emoji Mashup Bot, un développeur du nom de Louan Bengmah, aurait dû scinder chaque emoji source en un ensemble de parties avant d’écrire un programme qui les reconstituerait dans de nouvelles configurations. Cela demande beaucoup plus d’efforts, sans parler de certaines compétences techniques.

Pour Compton, cet effort n’est pas quelque chose à éviter, c’est le but de l’exercice. « Si je voulais juste faire quelque chose, je pourrais faire quelque chose », m’a-t-elle dit. « Si je voulais faire fabriquer quelque chose, je pourrais faire fabriquer quelque chose. » Contrairement à la mission d’OpenAI, Compton voit le but du logiciel génératif différemment : la pratique de la création d’outils logiciels s’apparente à donner naissance à une créature logicielle (« une version chibi du système », comme elle me l’a dit) qui peut faire quelque chose… la plupart du temps mauvaises ou étranges ou, en tout cas, des versions caricaturales de celui-ci – et de passer du temps à communier avec cette créature, comme on pourrait le faire avec un chien jouet, un jeune enfant ou un extraterrestre bienveillant. Le but n’est pas de produire la ressemblance la meilleure ou la plus précise d’un menu de cocktails hipster ou d’une vue sur la montagne à l’aube, mais de capturer quelque chose de plus véridique que la réalité. Les idées de ChatGPT pour de nouveaux emoji sont viables, mais les offres d’Emoji Mashup Bot semblent appropriées ; vous pouvez les utiliser plutôt que de simplement publier sur le fait qu’un ordinateur les a générés.

« C’est peut-être ce que nous avons perdu dans les générateurs de tout générer », a déclaré Compton : une compréhension de ce que la machine essaie de créer en premier lieu. Examiner le système, voir les possibilités qu’il contient, identifier ses modèles, encoder ces modèles dans des logiciels ou des données, puis regarder la chose fonctionner encore et encore. Lorsque vous tapez quelque chose dans ChatGPT ou DALL-E 2, c’est comme jeter une pièce de monnaie dans un puits à souhaits et remonter le seau pour trouver un tas de varech ou un chiot à sa place. Mais les générateurs de Compton ressemblent plus à mettre une pièce de monnaie dans un gachapon machine, sachant d’avance le genre d’objet dont la chose va se passer. Cet effort suggère une pratique par laquelle un auteur espère aider les utilisateurs à rechercher un rapport avec leur logiciel plutôt que d’en tirer un résultat. (Cela explique également pourquoi Twitter est devenu un hôte si fructueux pour ces bots – la plate-forme encourage nativement la caricature, la brièveté et la répétition.)

On gagne beaucoup à montrer comment fonctionne un générateur de logiciel et comment son créateur a compris les modèles qui définissent son sujet. L’Emoji Mashup Bot le fait en affichant les deux emoji à partir desquels il a construit une composition donnée. L’un des premiers générateurs de texte dont je me souviens avoir utilisé était un jouet logiciel étrange appelé Kant Generator Pro, conçu pour les Mac dans les années 1990. Il a utilisé des grammaires sans contexte pour composer un texte turgescent rappelant le philosophe allemand des Lumières Immanuel Kant, bien qu’il ait également inclus des modèles pour des compositions moins ésotériques, telles que des notes de remerciement. Le programme était livré avec un éditeur qui permettait à l’utilisateur de visualiser ou de composer des grammaires, offrant un moyen de regarder sous le capot et de comprendre la vérité du logiciel.

Mais une telle transparence est difficile ou impossible dans les systèmes d’apprentissage automatique tels que ChatGPT. Personne ne sait vraiment comment ni pourquoi ces IA produisent leurs résultats, et les résultats peuvent changer d’un moment à l’autre de manière inexplicable. Lorsque je demande à ChatGPT des concepts d’emoji, je n’ai aucune idée de sa théorie des emoji – quels modèles ou modèles il interprète comme importants ou pertinents. Je peux sonder ChatGPT pour expliquer son travail, mais le résultat n’est jamais explicatif. Il s’agit plutôt d’un texte plus généré : « Pour générer les idées d’emojis, j’ai utilisé ma connaissance des concepts et des thèmes communs qui sont souvent représentés dans les emojis. comme ma compréhension des émotions, des activités et des intérêts humains.

Peut-être qu’à mesure que les collaborations créatives avec les générateurs de logiciels se généraliseront, les générateurs de tout seront refondus en middleware utilisés par des logiciels sur mesure avec des objectifs plus spécifiques. Le travail de Compton est charmant mais n’aspire pas vraiment à l’utilité, et il y a certainement beaucoup d’opportunités pour l’IA générative d’aider les gens à faire des choses utiles, voire belles. Même ainsi, réaliser cet avenir impliquera beaucoup plus de travail que de simplement discuter avec un programme informatique qui semble, à première vue, savoir quelque chose sur tout. Une fois que ce premier rougissement s’estompe, il devient clair que ChatGPT ne sait pas vraiment rien– au lieu de cela, il produit des compositions qui simulent la connaissance grâce à une structure persuasive. Et au fur et à mesure que la nouveauté de cette surprise s’estompe, il devient clair que ChatGPT est moins une machine magique qui exauce les souhaits qu’un partenaire d’entraînement interprétatif, un outil qui est plus intéressant quand il est mauvais plutôt que bon dans son travail.

Personne ne veut vraiment d’un outil qui puisse faire quoi que ce soit, car un tel besoin est une illusion théorique, un fantasme capitaliste, ou les deux. L’espoir ou la crainte que ChatGPT ou Midjourney ou tout autre outil d’IA puisse mettre fin à l’expertise, à l’artisanat et au travail trahit une vérité évidente : ces nouveaux gadgets impliquent de tout nouveaux régimes d’expertise, d’artisanat et de travail. Nous avons joué avec des démos technologiques, pas avec des produits finis. Finalement, les matières premières de ces outils d’IA seront utilisées dans des choses pour lesquelles les gens paieront, hélas, de l’argent. Certains de ces nouveaux travaux seront stupides et insultants, car les organisations exigent une génération de valeur autour des systèmes d’IA dans lesquels elles ont investi (Microsoft envisagerait d’ajouter ChatGPT à Office). D’autres pourraient s’avérer gratifiants et même révélateurs, s’ils peuvent convaincre les créateurs et le public que le logiciel fait quelque chose de spécifique et parle avec intention, en leur offrant l’opportunité d’entrer en dialogue avec lui.

Pour l’instant, ce dialogue est plus simulé que réel. Oui, bien sûr, vous pouvez « discuter » avec ChatGPT, et vous pouvez itérer sur des images avec Midjourney. Mais un sentiment de vide se dégage de bon nombre de ces rencontres, car le logiciel passe par les mouvements. Il semble écouter et répondre, mais il ne fait que transformer les entrées en sorties. La créativité de l’IA devra abandonner le rêve stupide et hubristique de l’intelligence artificielle générale au profit de spécificités concrètes. Une machine infiniment intelligente qui peut faire n’importe quoi est inutile.





Source link -30