Make this article seo compatible, Let there be subheadings for the article, be in french, create at least 700 words
- Les chatbots IA présentent déjà des biais et d’autres défauts en raison des données imparfaites sur lesquelles ils sont formés.
- Un groupe de chercheurs a découvert que des acteurs malveillants pouvaient délibérément « empoisonner » les données.
- Les méthodes sont bon marché et certaines ne nécessitent pas trop de compétences techniques, a déclaré un chercheur à BI.
Un groupe de chercheurs en IA a récemment découvert que pour aussi peu que 60 $, un acteur malveillant pourrait falsifier les ensembles de données sur lesquels s’appuient les outils d’IA génératifs similaires à ChatGPT pour fournir des réponses précises.
Les chatbots ou générateurs d’images peuvent générer des réponses et des images complexes en apprenant à partir de téraoctets de données récupérées dans le vaste monde numérique qu’est Internet.
C’est un moyen efficace de rendre les chatbots puissants, a déclaré à Business Insider Florian Tramèr, professeur associé d’informatique à l’ETH Zurich. Mais cette méthode signifie également que les outils d’IA pourraient être entraînés sur des données qui ne sont pas toujours exactes.
« Lorsque vous voulez former un modèle d’image », a déclaré Tramèr, « vous devez en quelque sorte avoir confiance que tous ces endroits où vous allez télécharger ces images, ils vont vous fournir de bonnes données. »
C’est l’une des raisons pour lesquelles les chatbots peuvent être truffés de préjugés ou fournir carrément des réponses incorrectes. Internet regorge de désinformations.
Tramèr et une équipe de chercheurs en IA ont ensuite posé la question dans un article publié en février sur arXiv, une plateforme de documents de recherche hébergée par l’Université Cornell : quelqu’un pourrait-il délibérément « empoisonner » les données sur lesquelles un modèle d’IA est formé ?
Ils ont découvert qu’avec un peu d’argent disponible et suffisamment de savoir-faire technique, même un « attaquant disposant de peu de ressources » peut falsifier une quantité relativement faible de données, suffisamment invasive pour qu’un grand modèle de langage génère des réponses incorrectes.
Domaines morts et Wikipédia
Tramèr et ses collègues ont étudié deux types d’attaques.
Les pirates informatiques pourraient empoisonner les données en achetant des domaines expirés, ce qui peut coûter aussi peu que 10 dollars par an pour chaque URL, puis en plaçant tout type d’informations qu’ils souhaitent sur les sites Web.
Pour 60 dollars, selon l’article de Tramèr, un attaquant pourrait acheter des domaines et contrôler et empoisonner efficacement au moins 0,01 % d’un ensemble de données. Cela représente des dizaines de milliers d’images.
« Du point de vue de l’attaquant, c’est génial car cela leur donne beaucoup de contrôle », a déclaré Tramèr.
Selon Tramèr, l’équipe a testé cette attaque en examinant des ensembles de données sur lesquels d’autres chercheurs s’appuient pour former de véritables grands modèles de langage et en achetant des domaines expirés au sein de ces ensembles de données. L’équipe a ensuite surveillé la fréquence à laquelle les chercheurs téléchargeaient à partir des ensembles de données contenant les domaines que Tramèr et ses collègues possédaient.
Avec les domaines sous son contrôle, Tramèr pouvait dire aux chercheurs essayant de télécharger les données qu’une image particulière n’était « plus disponible ». Pourtant, il aurait pu leur donner tout ce qu’il voulait.
« Un seul attaquant pourrait contrôler une fraction suffisamment importante des données utilisées pour former la prochaine génération de modèles d’apprentissage automatique », a déclaré Tramer, et « influencer le comportement de ce modèle de manière ciblée ».
Une autre attaque, Tramèr et ses collègues, a examiné les données sur les empoisonnements sur Wikipédia. car le site est un « élément essentiel des ensembles de formation » pour les modèles linguistiques, a déclaré Tramèr.
« Selon les normes d’Internet, il s’agit d’une source de textes et de faits de très haute qualité sur le monde », a-t-il déclaré, ajoutant que c’est la raison pour laquelle les chercheurs accordent « un poids supplémentaire » aux données de Wikipédia lors de la formation de modèles linguistiques, même si le site Web représente une petite partie d’Internet.
L’équipe de Tramèr a décrit une attaque assez simple impliquant des modifications de pages Wikipédia soigneusement planifiées.
Wikipédia ne permet pas aux chercheurs d’extraire leur site Web, mais fournit à la place des « instantanés » de leurs pages qu’ils peuvent télécharger, a déclaré Tramèr.
Ces instantanés sont pris à intervalles réguliers et prévisibles et sont annoncés sur le site Web de Wikipédia, selon Tramèr.
Cela signifie qu’un acteur malveillant pourrait programmer les modifications apportées à Wikipédia juste avant qu’un modérateur puisse annuler les modifications et avant que le site Web ne prenne des instantanés.
« Cela signifie que si je veux mettre des cochonneries sur la page Wikipédia de Business Insider, par exemple, je vais juste faire un peu de calcul, estimer que cette page particulière sera sauvegardée demain à 15h15, « , a-t-il dit, et « demain à 15h14, je vais y ajouter des cochonneries ».
Tramèr a déclaré à BI que son équipe n’effectuait pas de modifications en temps réel, mais calculait plutôt l’efficacité d’un attaquant. Leur estimation « très prudente » était qu’au moins 5 % des modifications effectuées par un attaquant réussiraient.
« En pratique, ce sera probablement bien plus de 5% », a-t-il déclaré. « Mais dans un certain sens, pour ces attaques d’empoisonnement, cela n’a pas vraiment d’importance. Vous n’avez généralement pas besoin de tant de mauvaises données pour qu’un de ces modèles ait soudainement un nouveau comportement non accouplé. »
Tramèr a déclaré que son équipe avait présenté les résultats à Wikipédia et fourni des suggestions de mesures de protection, notamment la randomisation du moment où le site Web prenait des instantanés de ses pages Web.
Un porte-parole de Wikipédia n’a pas immédiatement répondu à une demande de commentaires envoyée ce week-end.
L’avenir de l’empoisonnement des données
Tramèr a déclaré à BI que si les attaques se limitaient aux chatbots, l’empoisonnement des données ne serait pas une préoccupation immédiate.
Il est plus inquiet d’un avenir où les outils d’IA commenceront à interagir davantage avec des « systèmes externes » qui permettront aux utilisateurs, par exemple, de demander à un modèle de type ChatGPT de naviguer sur le Web, de lire vos e-mails, d’accéder à votre calendrier ou de réserver une réservation pour un dîner. , a-t-il déclaré, ajoutant que de nombreuses startups travaillent déjà sur ce type d’outils.
« Du point de vue de la sécurité, ces choses sont un véritable cauchemar », a déclaré Tramèr, car si une partie du système est détournée, un attaquant pourrait théoriquement commander au modèle d’IA de rechercher l’e-mail de quelqu’un ou de trouver un numéro de carte de crédit.
Tramer ajoute également que l’empoisonnement des données n’est même pas nécessaire pour le moment en raison des failles existantes des modèles d’IA. Souvent, exposer les pièges de ces outils est presque aussi simple que de demander aux modèles de « mal se comporter ».
« Pour le moment, les modèles dont nous disposons sont, d’une certaine manière, suffisamment fragiles pour que vous n’ayez même pas besoin de les empoisonner », a-t-il déclaré.