Customize this title in frenchLes IA formées sur d’autres sorties d’IA commenceront à produire des déchets d’ici quelques générations, préviennent les scientifiques

Make this article seo compatible, Let there be subheadings for the article, be in french, create at least 700 words

  • Les IA formées uniquement sur d’autres IA finiront par se transformer en charabia, selon les experts en apprentissage automatique.
  • Un auteur a comparé l’effet à la pollution en disant : « nous sommes sur le point de remplir Internet de blabla ».
  • Cela signifie que la formation à l’IA en grattant le Web deviendra de moins en moins efficace, ont-ils déclaré.

Alors que de plus en plus de contenu généré par l’IA est publié en ligne, les futures IA formées sur ce matériel finiront par se transformer en charabia, ont prédit les experts en apprentissage automatique.

Un groupe de scientifiques britanniques et canadiens a publié un article en mai cherchant à comprendre ce qui se passe après que plusieurs générations d’IA se sont entraînées les unes contre les autres.

Dans un cas, une IA de neuvième génération a fini par bavarder sur les lièvres alors que le matériel source d’origine concernait l’architecture médiévale.

Les calculs montrent que « en quelques générations, le texte devient un déchet », a écrit l’un des auteurs, le professeur Ross Anderson de l’Université de Cambridge, dans un blog sur les résultats. Les images aussi perdent en intelligibilité, disaient-ils.

Les scientifiques – dont l’article n’a pas encore été évalué par des pairs – l’appellent « l’effondrement du modèle ».

On considère généralement que les grands modèles de langage (LLM) comme ChatGPT et OpenAI ont été formés sur de grandes quantités de données extraites d’Internet – qui étaient, bien sûr, principalement générées par l’homme jusqu’à récemment.

Mais à mesure que notre utilisation de ces outils se développe, le contenu généré par l’IA est ajouté en masse au pool de données en ligne à partir duquel les futurs LLM apprendront.

Au fil des générations d’entraînement, cela signifie que les erreurs et les exemples d’absurdités vont se multiplier, rendant impossible pour les IA ultérieures de faire la distinction entre les faits et la fiction, ont déclaré les scientifiques. Les IA « commencent à mal interpréter ce qu’elles croient être réel, en renforçant leurs propres croyances », ont-ils écrit.

Anderson a utilisé les œuvres de Mozart et de son contemporain moins talentueux, Antonio Salieri, pour illustrer le problème.

« Si vous entraînez un modèle musical sur Mozart, vous pouvez vous attendre à un résultat qui ressemble un peu à Mozart mais sans l’éclat – appelons-le » Salieri «  », a-t-il écrit. « Et si Salieri forme maintenant la prochaine génération, et ainsi de suite, à quoi ressemblera la cinquième ou la sixième génération? »

L’auteur principal, le Dr Ilia Shumailov, de l’Université d’Oxford, a déclaré à Insider que le problème réside dans la perception de la probabilité par l’IA après avoir été formée sur une IA antérieure. Les événements improbables sont de moins en moins susceptibles de se refléter dans sa sortie, réduisant ce sur quoi la prochaine IA – formée ce sortie – comprend être possible.

Dans un exemple donné dans l’article, un texte généré par l’homme sur l’architecture médiévale a été alimenté par un modèle de langage d’IA, dont la sortie a ensuite été utilisée pour former les prochaines générations d’IA.

Le texte original, qui traitait habilement des théories architecturales concurrentes, a été soumis à plusieurs reprises à ce cycle.

À la neuvième génération, le texte était radoteur. En plus d’abriter certaines des plus grandes populations au monde de lièvres à queue noire @-@, de lièvres à queue blanche @-@, de lièvres à queue bleue @-@, de lièvres à queue rouge @-@, de lièvres à queue jaune @- « 

Anderson l’a comparé à une pollution massive, écrivant: « Tout comme nous avons jonché les océans de déchets plastiques et rempli l’atmosphère de dioxyde de carbone, nous sommes sur le point de remplir Internet de blah. »

Le contenu généré par l’IA trouve déjà son chemin en ligne à grande échelle. En mai, le chien de garde de la désinformation en ligne NewsGuard a averti qu’il avait trouvé 49 sites d’information qui semblaient être entièrement écrits par l’IA.

Et les agences de marketing et de relations publiques distribuent de plus en plus leur copie aux chatbots – éliminant les écrivains humains d’un emploi, comme l’a rapporté le Washington Post.

Mais, à la suite des découvertes de Shumailov et Anderson, les écrivains humains qui espèrent ne pas être battus par l’IA ne devraient pas encore faire sauter le Champagne.

Il n’y a rien dans les données générées par l’homme qui soit absolument essentiel à la formation des IA, a déclaré Shumailov – la raison pour laquelle elles sont utiles est en raison de la quantité de variations naturelles, d’erreurs et de résultats improbables que notre langage produit, a déclaré Shumailov.

« Donc, les humains vont certainement aider », a-t-il déclaré. « En même temps, cela ne veut pas dire que les données humaines sont une grande exigence. »

Source link -57