Customize this title in frenchLes principaux sites Web empêchent Google de former des modèles d’IA sur leurs données

Make this article seo compatible, Let there be subheadings for the article, be in french, create at least 700 words

  • Google a lancé un nouvel outil qui permet aux éditeurs de refuser de former les modèles d’IA de Google.
  • De plus en plus de sites Web de premier plan l’utilisent.
  • Cependant, Google n’est pas autant bloqué qu’OpenAI. Il y a peut-être une bonne raison à cela.

Il y a une grande affaire au cœur du Web : un petit morceau de code qui maintient l’ordre depuis des décennies.

Robots.txt permet aux propriétaires de sites Web de choisir de laisser ou non Google et d’autres géants de la technologie supprimer leur contenu en ligne. La plupart des sites ont laissé Google faire cela parce que l’entreprise distribue un trafic très précieux.

Ensuite, les guerres de l’IA ont commencé. Il s’avère que tout ce contenu a été stocké dans des ensembles de données qui constituent la base de la formation de puissants modèles d’IA, notamment ceux d’OpenAI, Google, Meta et autres. Ces modèles répondent souvent directement aux questions des utilisateurs, de sorte que moins de trafic peut être distribué et que le grand marché du Web commence à se dérouler.

Une partie de la réponse de Google a été de lancer un nouvel outil qui permet aux sites Web d’empêcher l’entreprise d’utiliser leur contenu pour former des modèles d’IA. C’est ce qu’on appelle Google-Extended. Il est sorti en septembre et est en train d’être repris.

Les données partagées par Originality.ai montrent que l’extrait Google-Extended est utilisé par environ 10 % des 1 000 principaux sites Web, fin mars.


Un graphique montrant le pourcentage des 1 000 principaux sites Web bloquant les robots d'exploration IA

Utilisation d’extraits de code qui empêchent les entreprises technologiques d’utiliser du contenu en ligne pour la formation de modèles d’IA.

Originalité.ai



Le New York Times a activé le bloqueur Google-Extended, selon un examen de son fichier robots.txt. La publication, qui se livre à une vive bataille pour les droits d’auteur de l’IA avec OpenAI, a également bloqué l’accès de cette startup à son contenu.

L’entreprise est en guerre contre d’autres entreprises qui exploitent des données en ligne pour la formation de modèles d’IA ou qui compilent ce type de données pour que d’autres puissent les utiliser de la même manière.

« L’utilisation de tout appareil, outil ou processus conçu pour extraire des données ou récupérer le contenu à l’aide de moyens automatisés est interdite sans autorisation écrite préalable », déclare le NYT sur sa page robots.txt.

Les utilisations interdites incluent « le développement de tout logiciel, l’apprentissage automatique, l’intelligence artificielle (IA) et/ou les grands modèles de langage (LLM) », ajoute l’éditeur. Un porte-parole du New York Times a refusé de commenter.

Google a moins bloqué qu’OpenAI

Pour Google-Extended, d’autres sites Web ont également activé cette fonctionnalité, notamment CNN, BBC, Yelp et Business Insider, l’éditeur de cet article.

Cependant, Google-Extended a eu beaucoup moins de succès que GPTBot d’OpenAI, qui représente environ 32 % des 1 000 meilleurs sites Web. CCBot, proposé par Common Crawl, a également été davantage activé.

BI a demandé à Jonathan Gillham, PDG d’Originality.ai, pourquoi Google-Extended est moins utilisé que les autres bloqueurs de données de formation à l’IA.

Il a déclaré que si Google déployait un moteur de recherche génératif d’IA auprès du grand public, il y avait un risque que les sites qui ont bloqué l’accès de l’entreprise aux données de formation ne soient pas repris dans les résultats générés par l’IA.

« Si une question est « Quelle est la meilleure pizza profonde à Chicago ? » et qu’une pizzeria empêche l’IA de Google d’utiliser les données de son site Web pour s’entraîner, elle n’aura alors aucune connaissance de ce restaurant et ne pourra pas l’inclure dans sa réponse », a expliqué Gillham.

Google teste une première version de la recherche genAI via sa Search Generative Experience, ou SGE. On ne sait pas si l’entreprise le lancera pleinement à l’avenir, ni à quel point il sera différent du moteur de recherche traditionnel de Google.

Ces décisions contribueront grandement à décider de l’avenir du Web dans ce nouveau monde de l’IA.

Axel Springer, la société mère de Business Insider, a conclu un accord mondial pour permettre à OpenAI de former ses modèles sur les rapports de ses marques médiatiques.

Source link -57