Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 wordsAu début, les chatbots et leurs semblables se nourrissaient d’Internet créé par l’homme. Divers modèles d’IA générative du type de ceux qui alimentent ChatGPT ont fait leurs débuts en dévorant les données de sites tels que Wikipedia, Getty et Scribd. Ils ont consommé du texte, des images et d’autres contenus, apprenant par digestion algorithmique leurs saveurs et textures, quels ingrédients vont bien ensemble et lesquels ne vont pas, afin de concocter leur propre art et écriture. Mais ce festin ne fait que les mettre en appétit.L’IA générative dépend entièrement de la subsistance qu’elle tire du Web : les ordinateurs miment l’intelligence en traitant des quantités presque insondables de données et en en dérivant des modèles. ChatGPT peut écrire un essai de lycée passable parce qu’il a lu la valeur des bibliothèques de livres et d’articles numérisés, tandis que DALL-E 2 peut produire des images de Picasso parce qu’il a analysé quelque chose comme la trajectoire entière de l’histoire de l’art. Plus ils s’entraînent, plus ils apparaissent intelligents.Finalement, ces programmes auront ingéré presque tous les éléments numériques créés par l’homme. Et ils sont déjà utilisés pour engorger le Web avec leur propre contenu créé par la machine, qui ne fera que continuer à proliférer – sur TikTok et Instagram, sur les sites des médias et des détaillants, et même dans les expériences universitaires. Pour développer des produits d’IA toujours plus avancés, Big Tech pourrait n’avoir d’autre choix que d’alimenter ses programmes avec du contenu généré par l’IA, ou tout simplement ne pas être en mesure de séparer le fourrage humain du synthétique – un changement de régime potentiellement désastreux pour les modèles et le Internet, selon les chercheurs.Lire : Le doomérisme de l’IA est un leurreLe problème avec l’utilisation de la sortie de l’IA pour former la future IA est simple. Malgré des avancées étonnantes, les chatbots et autres outils génératifs tels que la création d’images Midjourney et Stable Diffusion restent parfois scandaleusement dysfonctionnels – leurs sorties sont remplies de préjugés, de mensonges et d’absurdités. « Ces erreurs migreront vers » les futures itérations des programmes, m’a dit Ilia Shumailov, chercheur en apprentissage automatique à l’Université d’Oxford. « Si vous imaginez que cela se produit encore et encore, vous amplifierez les erreurs au fil du temps. » Dans une étude récente sur ce phénomène, qui n’a pas été évaluée par des pairs, Shumailov et ses co-auteurs décrivent la conclusion de ces erreurs amplifiées comme effondrement du modèle: « un processus dégénératif par lequel, avec le temps, les modèles oublient », presque comme s’ils devenaient séniles. (Les auteurs ont à l’origine appelé le phénomène « modèle de démence », mais l’ont renommé après avoir reçu des critiques pour avoir banalisé la démence humaine.)L’IA générative produit des sorties qui, sur la base de ses données d’entraînement, sont les plus probables. (Par exemple, ChatGPT prédira que, dans un message d’accueil, action? est susceptible de suivre comment allez-vous.) Cela signifie des événements qui semblent moins probables, que ce soit à cause de défauts dans un algorithme ou d’un échantillon d’apprentissage qui ne reflète pas adéquatement le monde réel – choix de mots non conventionnels, formes étranges, images de personnes à la peau plus foncée (la mélanine est souvent rares dans les ensembles de données d’image) – n’apparaîtront pas autant dans les sorties du modèle, ou apparaîtront avec des défauts profonds. Chaque IA successive formée sur l’IA passée perdrait des informations sur des événements improbables et aggraverait ces erreurs, m’a dit Aditi Raghunathan, informaticien à l’Université Carnegie Mellon. Tu es ce que tu manges.La formation récursive pourrait amplifier les préjugés et les erreurs, comme le suggèrent également des recherches antérieures – les chatbots formés sur les écrits d’un chatbot raciste, comme les premières versions de ChatGPT qui profilaient racialement les hommes musulmans comme des «terroristes», ne feraient que devenir plus préjugés. Et si elle était poussée à l’extrême, une telle récursivité dégraderait également les fonctions les plus élémentaires d’un modèle d’IA. Au fur et à mesure que chaque génération d’IA comprend mal ou oublie des concepts sous-représentés, elle deviendra trop confiante quant à ce qu’elle fait savoir. Finalement, ce que la machine juge « probable » commencera à sembler incohérent pour les humains, m’a dit Nicolas Papernot, informaticien à l’Université de Toronto et l’un des co-auteurs de Shumailov.L’étude a testé comment l’effondrement du modèle se produirait dans divers programmes d’IA – pensez que GPT-2 s’est entraîné sur les sorties de GPT-1, GPT-3 sur les sorties de GPT-2, GPT-4 sur les sorties de GPT-3, et ainsi de suite, jusqu’à la nième génération. Un modèle qui a commencé par produire une grille de nombres affichait un tableau de zéros flous après 20 générations ; un modèle destiné à trier les données en deux groupes a finalement perdu la capacité de les distinguer, produisant un seul point après 2 000 générations. L’étude fournit une « manière agréable et concrète de démontrer ce qui se passe » avec une telle boucle de rétroaction des données, a déclaré Raghunathan, qui n’a pas participé à la recherche. Les IA engloutissaient les sorties les unes des autres, et à leur tour les unes les autres, une sorte de cannibalisme récursif qui ne laissait rien d’utile ou de substance derrière elles – ce ne sont pas tant les anthropophages de Shakespeare, ou les mangeurs d’humains, que les mécanophages de la conception de la Silicon Valley.Le modèle de langage qu’ils ont testé s’est également complètement effondré. Au début, le programme terminait couramment une phrase sur l’architecture gothique anglaise, mais après neuf générations d’apprentissage à partir de données générées par l’IA, il a répondu à la même invite en crachant du charabia : « architecture. En plus d’abriter certaines des plus grandes populations au monde de lièvres à queue noire @-@, de lièvres à queue blanche @-@, de lièvres à queue bleue @-@, de lièvres à queue rouge @-@, de lièvres à queue jaune @-. Pour qu’une machine crée une carte fonctionnelle d’une langue et de ses significations, elle doit tracer tous les mots possibles, quelle que soit leur fréquence. « En langage, il faut modéliser la distribution de tous mots possibles qui peuvent constituer une phrase », a déclaré Papernot. « Parce qu’il y a un échec [to do so] sur plusieurs générations de modèles, il converge vers la production de séquences absurdes.En d’autres termes, les programmes ne pouvaient que recracher une moyenne dénuée de sens – comme une cassette qui, après avoir été copiée suffisamment de fois sur un magnétophone, sonne comme statique. Comme l’a écrit l’auteur de science-fiction Ted Chiang, si ChatGPT est une version condensée d’Internet, semblable à la façon dont un fichier JPEG compresse une photographie, alors former les futurs chatbots sur la sortie de ChatGPT est « l’équivalent numérique de faire à plusieurs reprises des photocopies de photocopies dans Les vieux jours. La qualité de l’image ne fait qu’empirer.Le risque d’effondrement éventuel du modèle ne signifie pas que la technologie est sans valeur ou destinée à s’empoisonner. Alex Dimakis, informaticien à l’Université du Texas à Austin et codirecteur du National AI Institute for Foundations of Machine Learning, qui est parrainé par la National Science Foundation, a souligné les problèmes de confidentialité et de droit d’auteur comme raisons potentielles de former l’IA sur des données synthétiques. Considérez les applications médicales : l’utilisation des informations médicales de vrais patients pour former l’IA pose d’énormes violations de la vie privée que l’utilisation d’enregistrements synthétiques représentatifs pourrait contourner, par exemple, en prenant une collection d’enregistrements de personnes et en utilisant un programme informatique pour générer un nouvel ensemble de données qui, dans l’ensemble, contient les mêmes informations. Pour prendre un autre exemple, un matériel de formation limité est disponible dans des langues rares, mais un programme d’apprentissage automatique pourrait produire des permutations de ce qui est disponible pour augmenter l’ensemble de données.Lire : ChatGPT est déjà obsolèteLa possibilité que les données générées par l’IA entraînent l’effondrement du modèle souligne donc la nécessité de conserver des ensembles de données de formation. « Le filtrage est tout un domaine de recherche en ce moment », m’a dit Dimakis. « Et nous voyons que cela a un impact énorme sur la qualité des modèles » – avec suffisamment de données, un programme formé sur une plus petite quantité d’entrées de haute qualité peut surpasser un programme gonflé. Tout comme les données synthétiques ne sont pas intrinsèquement mauvaises, « les données générées par l’homme ne sont pas un étalon-or », a déclaré Ilia…
Source link -57