L’aube de l’imagination artificielle


Pendant des années, les craintes concernant le potentiel perturbateur de l’automatisation et de l’intelligence artificielle se sont concentrées sur le travail répétitif : peut-être que les machines pourraient remplacer les humains qui font du secrétariat, de la comptabilité, du retournement de hamburgers. Les médecins, les ingénieurs en logiciel, les auteurs – tout travail nécessitant une intelligence créative – semblaient sûrs. Mais les derniers mois ont bouleversé ces récits. Une vague de programmes d’intelligence artificielle, collectivement surnommés « IA générative », ont montré une aptitude remarquable à utiliser la langue anglaise, le codage au niveau de la compétition, la création d’images époustouflantes à partir de simples invites et peut-être même la découverte de nouveaux médicaments. Au cours d’une année qui a vu de nombreuses bulles de battage médiatique éclater ou se dégonfler, ces applications suggèrent que la Silicon Valley a toujours le pouvoir, de manière subtile et choquante, de recâbler le monde.

Une réaction raisonnable à l’IA générative est l’inquiétude ; si même l’imagination n’est pas à l’abri des machines, l’esprit humain risque de devenir obsolète. Une autre consiste à pointer les nombreux biais et défauts de ces algorithmes. Mais ces nouveaux modèles suscitent aussi l’émerveillement, d’une variété science-fictionnelle – peut-être que les ordinateurs ne remplaceront pas tant la créativité humaine qu’ils ne l’augmenteront ou ne la transformeront. Nos cerveaux ont largement profité des calculatrices, des ordinateurs et même des moteurs de recherche Internet, après tout.

« La raison pour laquelle nous avons construit cet outil est de vraiment démocratiser la génération d’images pour un groupe de personnes qui ne se classeraient pas nécessairement comme des artistes », Mark Chen, chercheur principal sur DALL-E 2, un modèle d’OpenAI qui transforme les invites écrites en art visuel, dit pendant L’Atlantique‘s tout premier Sommet du Progrès hier. « Avec l’IA, vous vous inquiétez toujours de la perte d’emploi et du déplacement, et nous ne voulons pas non plus ignorer ces possibilités. Mais nous pensons que c’est un outil qui permet aux gens d’être créatifs, et nous avons vu, jusqu’à présent, que les artistes sont plus créatifs avec lui que les utilisateurs réguliers. Et il y a beaucoup de technologies comme celle-ci : les appareils photo des smartphones n’ont pas remplacé les photographes.

Chen a été rejoint par L’Atlantique‘s rédacteur en chef adjoint, Ross Andersen, pour une conversation de grande envergure sur l’avenir de la créativité humaine et de l’intelligence artificielle. Ils ont discuté du fonctionnement de DALL-E 2, du refus qu’OpenAI a reçu des artistes et des implications des programmes de conversion de texte en image pour le développement d’une intelligence artificielle plus générale.

Leur conversation a été éditée et condensée pour plus de clarté.

Ross Andersen : Pour moi, il s’agit de la nouvelle technologie la plus excitante dans le domaine de l’IA depuis la traduction en langage naturel. Lorsque certains de ces outils sont sortis pour la première fois, j’ai commencé à rendre des images de rêves que j’avais quand j’étais enfant. Je pouvais montrer à mes enfants des choses qui n’étaient apparues auparavant que dans ma tête. Je me demandais, puisque vous avez créé cette technologie, si vous pouviez nous dire un peu comment elle fait ce qu’elle fait.

Marc Chen : Il y a un long processus de formation. Vous pouvez imaginer un tout petit enfant à qui vous montrez beaucoup de cartes flash, et chacune de ces cartes flash contient une image et une légende. Peut-être qu’après en avoir vu des centaines et des millions, chaque fois qu’il y a le mot Panda, il commence à voir un animal flou ou quelque chose en noir et blanc. Il forme donc ces associations, puis construit en quelque sorte son propre type de langage pour représenter essentiellement le langage et les images, puis est capable de traduire cela en images.

Andersen : Sur combien d’images DALL-E 2 est-il entraîné ?

Chen : Plusieurs centaines de millions d’images. Et c’est une combinaison de choses que nous avons sous licence auprès de partenaires et aussi de choses qui sont accessibles au public.

Andersen : Et comment toutes ces images ont-elles été étiquetées ?

Chen : De nombreuses images naturelles sur le Web sont associées à des légendes. Beaucoup de partenaires avec lesquels nous travaillons fournissent également des données avec des annotations décrivant ce qu’il y a dans l’image.

Andersen : Vous pouvez faire des invites vraiment complexes qui génèrent des scènes vraiment complexes. Comment la chose crée-t-elle une scène entière; comment sait-il répartir les objets dans le champ visuel ?

Chen : Ces systèmes, lorsque vous les entraînez, même sur des objets individuels, ils savent ce qu’est un arbre ; il sait ce qu’est un chien – il est capable de combiner des choses d’une manière qu’il n’a jamais vue dans l’ensemble d’entraînement auparavant. Donc, si vous demandez un chien vêtu d’un costume derrière un arbre ou quelque chose, il peut synthétiser toutes ces choses ensemble. Et je pense que cela fait partie de la magie de l’IA, que vous pouvez généraliser au-delà de ce sur quoi vous l’avez formé.

Andersen : Il y a aussi un art d’inciter à l’écriture. En tant qu’écrivain, je pense beaucoup à créer des séquences de mots qui évoqueront des images vives dans l’esprit d’un lecteur. Et dans ce cas, lorsque vous jouez avec cet outil, l’imagination du lecteur dispose de toute la bibliothèque numérique de l’humanité. En quoi votre conception des invites a-t-elle changé de DALL-E 1 à DALL-E 2 ?

Chen : Même jusqu’à DALL-E 2, la plupart des façons dont les gens induisaient la génération d’images consistaient en de courtes descriptions d’une phrase. Mais les gens ajoutent maintenant des détails très spécifiques, même les textures qu’ils veulent. Et il s’avère que le modèle peut en quelque sorte reprendre toutes ces choses et faire des ajustements très subtils. C’est vraiment une question de personnalisation – tous ces adjectifs que vous ajoutez vous aident essentiellement à personnaliser la sortie selon ce que vous voulez.

Andersen : Il y a beaucoup d’artistes contemporains qui ont été bouleversés par cette technologie. Quand je m’amusais à générer mes rêves, il y a un artiste contemporain suédois du nom de Simon Stålenhag qui a un style que j’adore, et j’ai donc giflé son nom à la fin. Et en effet, cela a simplement transformé le tout en cette belle image de style Simon Stålenhag. Et j’ai ressenti une pointe de culpabilité à ce sujet, comme si j’aurais presque souhaité que ce soit un modèle Spotify avec des redevances. Mais ensuite, il y a une autre façon de voir cela, qui est tout simplement dommage – toute l’histoire de l’art consiste à imiter le style des maîtres et à remixer des styles créatifs préexistants. Je sais que vous recevez beaucoup de réactions à ce sujet. Où pensez-vous que cela va?

Chen : Notre objectif n’est pas d’aller chercher des artistes raides ou quelque chose comme ça. Tout au long du processus de sortie, nous avons voulu être très consciencieux et travailler avec les artistes, leur demander de nous dire ce qu’ils veulent en tirer et comment pouvons-nous rendre cela plus sûr. Nous voulons nous assurer que nous continuons à travailler avec les artistes et qu’ils nous font part de leurs commentaires. Il y a beaucoup de solutions qui circulent dans cet espace, comme potentiellement désactiver la capacité de générer dans un style particulier. Mais il y a aussi cet élément d’inspiration que vous obtenez, comme les gens apprennent en imitant les maîtres.

Andersen : Neil Postman a une ligne que j’adore, où il dit qu’au lieu de penser au changement technologique comme additif ou soustractif, pensez-y comme écologique, comme changeant les systèmes dans lesquels les gens opèrent. Et dans ce cas, ces personnes sont des artistes. Parce que vous êtes en dialogue avec des artistes, que constatez-vous comme changements ? À quoi ressemblera l’espace créatif dans cinq, dix ans dans le sillage de ces outils ?

Chen : Ce qui est étonnant avec DALL-E, c’est que nous avons constaté que les artistes utilisent mieux ces outils que la population en général. Nous avons vu certaines des meilleures œuvres d’art sortir de ces systèmes essentiellement produites par des artistes. La raison pour laquelle nous avons construit cet outil est de vraiment démocratiser la génération d’images pour un groupe de personnes qui ne se classeraient pas nécessairement comme des artistes. Avec l’IA, vous vous inquiétez toujours de la perte d’emploi et du déplacement, et nous ne voulons pas non plus ignorer ces possibilités. Mais nous pensons que c’est un outil qui permet aux gens d’être créatifs, et nous avons vu, jusqu’à présent, que les artistes sont plus créatifs avec lui que les utilisateurs réguliers. Et il y a beaucoup de technologies comme celle-ci – les appareils photo des smartphones n’ont pas remplacé les photographes.

Andersen : Aussi transformateur que soit DALL-E, ce n’est pas le seul salon d’OpenAI. Ces dernières semaines, nous avons vu ChatGPT prendre d’assaut le monde avec des invites de texte à texte. Je me demandais si vous pouviez nous en dire un peu plus sur la façon dont l’évolution de ces deux produits vous a fait réfléchir à la différence de créativité textuelle et visuelle ? Et comment pouvez-vous utiliser ces outils ensemble ?

Chen : Avec DALL-E, vous pouvez obtenir une large grille d’échantillons et choisir très facilement celui que vous aimez. Avec le texte, vous n’avez pas nécessairement ce luxe, donc dans un certain sens, la barre pour le texte est un peu plus haute. Je vois beaucoup de place pour que ces types de modèles soient utilisés ensemble à l’avenir. Peut-être avez-vous une interface conversationnelle pour générer des images.

Andersen : Ce qui m’intéresse, c’est de savoir si nous arriverons un jour à quelque chose comme une intelligence artificielle générale, quelque chose qui peut fonctionner dans de nombreux domaines différents au lieu d’être vraiment spécifique à un domaine, comme une IA jouant aux échecs. De votre point de vue, est-ce une étape progressive vers cela? Ou est-ce que cela ressemble à un bond en avant pour vous ?

Chen : Une chose qui différencie toujours OpenAI, c’est que nous voulons construire une intelligence artificielle générale. Nous ne nous soucions pas nécessairement d’un trop grand nombre de ces domaines étroits. Une grande partie de la raison pour laquelle DALL-E joue là-dedans est que nous voulions un moyen de voir comment nos modèles voient le monde. Voient-ils le monde de la même manière que nous le décririons ? Nous avons fourni cette interface textuelle afin que nous puissions voir ce que le modèle imagine et nous assurer que le modèle est calibré à la façon dont nous percevons le monde.



Source link -30