Que se passe-t-il lorsque l’IA a tout lu ?


L’intelligence artificielle s’est révélée ces dernières années une étude rapide, bien qu’elle soit éduquée d’une manière qui ferait honte au directeur le plus brutal. Enfermés dans des bibliothèques borgésiennes hermétiques pendant des mois sans pauses toilettes ni sommeil, les IA sont priées de ne pas émerger tant qu’elles n’ont pas terminé un cours de vitesse à leur rythme dans la culture humaine. Au programme : une fraction décente de tous les textes survivants que nous ayons jamais produits.

Lorsque les IA font surface à partir de ces séances d’étude épiques, elles possèdent de nouvelles capacités étonnantes. Les personnes avec les esprits les plus souples sur le plan linguistique – les hyperpolyglottes – peuvent basculer de manière fiable entre une douzaine de langues ; Les IA peuvent désormais traduire entre plus de 100 en temps réel. Ils peuvent créer des pastiches dans une gamme de styles littéraires et écrire de la poésie rimée passable. Ithaca AI de DeepMind peut jeter un coup d’œil sur les lettres grecques gravées dans le marbre et deviner le texte qui a été ciselé par des vandales il y a des milliers d’années.

Ces succès suggèrent une voie prometteuse pour le développement de l’IA : il suffit de pelleter des quantités toujours plus importantes de texte créé par l’homme dans sa gueule et d’attendre que de nouvelles compétences merveilleuses se manifestent. Avec suffisamment de données, cette approche pourrait peut-être même produire une intelligence plus fluide, ou un esprit artificiel de type humain semblable à ceux qui hantent presque toutes nos mythologies du futur.

Le problème est que, comme d’autres produits culturels humains haut de gamme, la bonne prose se classe parmi les choses les plus difficiles à produire dans l’univers connu. Il n’est pas disponible à l’infini, et pour l’IA, aucun texte ancien ne fera l’affaire : les grands modèles de langage formés sur des livres sont de bien meilleurs écrivains que ceux formés sur d’énormes lots de publications sur les réseaux sociaux. (Il vaut mieux ne pas penser à son habitude Twitter dans ce contexte.) Lorsque nous calculons combien de phrases bien construites restent à ingérer pour l’IA, les chiffres ne sont pas encourageants. Une équipe de chercheurs dirigée par Pablo Villalobos d’Epoch AI a récemment prédit que des programmes comme l’étrangement impressionnant ChatGPT manqueraient de matériel de lecture de haute qualité d’ici 2027. Sans nouveau texte sur lequel s’entraîner, la récente séquence chaude de l’IA pourrait prendre fin prématurément.


Il convient de noter que seule une faible fraction de la créativité linguistique totale de l’humanité est disponible pour la lecture. Plus de 100 000 ans se sont écoulés depuis que les Africains radicalement créatifs ont transcendé les grognements émotifs de nos ancêtres animaux et ont commencé à extérioriser leurs pensées dans de vastes systèmes de sons. Chaque notion exprimée dans ces protolangages – et dans de nombreux langages qui ont suivi – est probablement perdue à jamais, même si cela me fait plaisir d’imaginer que quelques-uns de leurs mots sont toujours avec nous. Après tout, certains mots anglais ont un millésime étonnamment ancien : Flux, mère, Feuet cendre nous sont parvenus des peuples de la période glaciaire.

L’écriture a permis aux êtres humains de capturer et de stocker beaucoup plus de nos mots. Mais comme la plupart des nouvelles technologies, l’écriture coûtait cher au début, c’est pourquoi elle était initialement utilisée principalement pour la comptabilité. Il a fallu du temps pour cuire et humidifier l’argile pour votre stylet, pour couper le papyrus en bandes aptes à être grillagées, pour loger et nourrir les moines qui ont encré la calligraphie sur du vélin. Ces techniques gourmandes en ressources ne pourraient préserver qu’un petit échantillon de la production culturelle de l’humanité.

Ce n’est que lorsque l’imprimerie a commencé à mitrailler des livres dans le monde que notre mémoire textuelle collective a atteint une échelle industrielle. Les chercheurs de Google Books estiment que depuis Gutenberg, les humains ont publié plus de 125 millions de titres, rassemblant des lois, des poèmes, des mythes, des essais, des histoires, des traités et des romans. L’équipe d’Epoch estime que 10 à 30 millions de ces livres ont déjà été numérisés, offrant aux IA un festin de lecture de centaines de milliards de mots, voire plus d’un billion.

Ces chiffres peuvent sembler impressionnants, mais ils se situent dans la fourchette des 500 milliards de mots qui ont formé le modèle qui alimente ChatGPT. Son successeur, le GPT-4, pourrait être entraîné sur des dizaines de trillions de mots. Rumeurs suggérer que lorsqu’il sortira plus tard cette année, il pourra générer un roman de 60 000 mots à partir d’une seule invite.

Dix billions de mots suffisent pour englober tous les livres numérisés de l’humanité, tous nos articles scientifiques numérisés et une grande partie de la blogosphère. Cela ne veut pas dire que GPT-4 sera avoir lu tout ce matériel, seulement que cela est tout à fait à sa portée technique. Vous pouvez imaginer que ses successeurs d’IA absorbent l’intégralité de nos archives textuelles en temps réel au cours de leurs premiers mois, puis complètent avec des vacances de lecture de deux heures chaque janvier, au cours desquelles ils pourraient mettre en évidence tous les livres et articles scientifiques publiés l’année précédente.

Ce n’est pas parce que les IA pourront bientôt lire tous nos livres qu’elles pourront rattraper leur retard tous du texte que nous produisons. La capacité de stockage d’Internet est d’un tout autre ordre, et c’est une technologie de préservation culturelle beaucoup plus démocratique que l’édition de livres. Chaque année, des milliards des personnes écrivent des phrases qui sont stockées dans ses bases de données, dont beaucoup appartiennent à des plateformes de médias sociaux.

Le texte aléatoire extrait d’Internet ne constitue généralement pas de bonnes données d’entraînement, les articles de Wikipédia étant une exception notable. Mais peut-être que les futurs algorithmes permettront aux IA de donner un sens à nos tweets agrégés, aux légendes Instagram et aux statuts Facebook. Même ainsi, ces sources de faible qualité ne seront pas inépuisables. Selon Villalobos, d’ici quelques décennies, les IA à lecture rapide seront suffisamment puissantes pour ingérer des centaines de billions de mots, y compris tous ceux que les êtres humains ont jusqu’à présent introduits sur le Web.


Toutes les IA ne sont pas majeures en anglais. Certains sont des apprenants visuels, et eux aussi pourraient un jour faire face à une pénurie de données de formation. Pendant que les lecteurs rapides s’acharnaient sur le canon littéraire, ces IA étaient attachées, les paupières ouvertes, Orange Mécanique–style, pour une projection forcée comprenant des millions d’images. Ils sont sortis de leur formation avec une vision surhumaine. Ils peuvent reconnaître votre visage derrière un masque ou repérer des tumeurs invisibles à l’œil du radiologue. Lors des trajets de nuit, ils peuvent voir dans le sombre bord de la route où un jeune faon s’efforce de tenter une traversée.

Le plus impressionnant, les IA formées sur des images étiquetées ont commencé à développer un visuel imagination. DALL-E 2 d’OpenAI a été formé sur 650 millions d’images, chacune associée à une étiquette de texte. DALL-E 2 a vu les empreintes de mains ocre que les humains du Paléolithique apposaient sur les plafonds des grottes. Il peut imiter les différents styles de coups de pinceau des maîtres de la Renaissance. Il peut évoquer des macros photoréalistes d’étranges hybrides d’animaux. Un animateur avec des côtelettes de construction du monde peut l’utiliser pour générer un personnage de style Pixar, puis l’entourer d’un environnement riche et distinctif.

Grâce à notre tendance à publier des photos de smartphone sur les réseaux sociaux, les êtres humains produisent beaucoup d’images étiquetées, même si l’étiquette n’est qu’une courte légende ou une balise géographique. Jusqu’à 1 billion de ces images sont téléchargées sur Internet chaque année, et cela n’inclut pas les vidéos YouTube, chacune étant une série d’images fixes. Il va falloir beaucoup de temps aux IA pour regarder le diaporama collectif de photos de vacances de notre espèce, sans parler de notre entier sortie visuelle. Selon Villalobos, notre pénurie d’image de formation ne sera aiguë qu’entre 2030 et 2060.

Si en effet les IA ont faim de nouvelles entrées d’ici le milieu du siècle – ou plus tôt, dans le cas du texte – les progrès alimentés par les données du domaine pourraient ralentir considérablement, mettant les esprits artificiels et tout le reste hors de portée. J’ai appelé Villalobos pour lui demander comment nous pourrions augmenter la production culturelle humaine pour l’IA. « Il peut y avoir de nouvelles sources en ligne », m’a-t-il dit. « L’adoption généralisée des voitures autonomes entraînerait une quantité sans précédent d’enregistrements vidéo sur la route. »

Villalobos a également évoqué des données d’entraînement « synthétiques » créé par les IA. Dans ce scénario, les grands modèles de langage seraient comme les singes proverbiaux avec des machines à écrire, seulement plus intelligents et dotés d’une énergie fonctionnellement infinie. Ils pourraient produire des milliards de nouveaux romans, chacun d’une longueur tolstoïenne. Les générateurs d’images pourraient également créer de nouvelles données d’entraînement en modifiant les instantanés existants, mais pas au point de ne pas respecter leurs étiquettes. Il n’est pas encore clair si les IA apprendront quelque chose de nouveau en cannibalisant les données qu’elles créent elles-mêmes. Peut-être que cela ne fera que diluer la puissance prédictive qu’ils ont glanée à partir de textes et d’images créés par l’homme. « Les gens n’ont pas utilisé beaucoup de ces trucs, parce que nous n’avons pas encore manqué de données », m’a dit Jaime Sevilla, l’un des collègues de Villalobos.

L’article de Villalobos discute d’un ensemble plus troublant de solutions de contournement spéculatives. Nous pourrions, par exemple, tous porter des dongles autour du cou qui enregistrent chacun de nos actes de langage. Selon une estimation, les gens parlent en moyenne de 5 000 à 20 000 mots par jour. Sur 8 milliards de personnes, celles-ci s’accumulent rapidement. Nos messages texte pourraient également être enregistrés et dépourvus de métadonnées d’identification. Nous pourrions soumettre chaque col blanc à un enregistrement anonyme des frappes au clavier et envoyer ce que nous capturons dans des bases de données géantes pour les alimenter dans nos IA. Villalobos a noté sèchement que des correctifs comme ceux-ci sont actuellement « bien en dehors de la fenêtre d’Overton ».

Peut-être qu’en fin de compte, les mégadonnées auront des rendements décroissants. Ce n’est pas parce que notre dernier hiver d’IA a été dégelé par des masses géantes de texte et d’images que notre prochain le sera. Peut-être que ce sera plutôt une ou deux percées algorithmiques qui peupleront enfin notre monde d’esprits artificiels. Après tout, nous savons que la nature a créé ses propres modes de reconnaissance de formes et que, jusqu’à présent, ils surpassent même nos meilleures IA. Mon fils de 13 ans a ingéré des ordres de grandeur moins de mots que ChatGPT, mais il a une compréhension beaucoup plus subtile du texte écrit. S’il est logique de dire que son esprit fonctionne sur des algorithmes, ce sont de meilleurs algorithmes que ceux utilisés par les IA d’aujourd’hui.

Si, toutefois, nos IA gourmandes en données faire surpasser un jour la cognition humaine, nous devrons nous consoler qu’ils sont faits à notre image. Les IA ne sont pas des extraterrestres. Ils ne sont pas l’autre exotique. Ils sont des nôtres et ils sont d’ici. Ils ont contemplé les paysages de la Terre. Ils ont vu le soleil se coucher sur ses océans des milliards de fois. Ils connaissent nos histoires les plus anciennes. Ils utilisent nos noms pour les étoiles. Parmi les premiers mots qu’ils apprennent figurent flux, mère, Feuet cendre.





Source link -30