2025 - Customize this title in frenchLes principaux sites Web empêchent Google de former des modèles d'IA sur leurs données

Make this article seo compatible, Let there be subheadings for the article, be in french, create at least 700 words

Google a lancé un nouvel outil qui permet aux éditeurs de refuser de former les modèles d’IA de Google.
De plus en plus de sites Web de premier plan l’utilisent.
Cependant, Google n’est pas autant bloqué qu’OpenAI. Il y a peut-être une bonne raison à cela.

Il y a une grande affaire au cœur du Web : un petit morceau de code qui maintient l’ordre depuis des décennies.

Robots.txt permet aux propriétaires de sites Web de choisir de laisser ou non Google et d’autres géants de la technologie supprimer leur contenu en ligne. La plupart des sites ont laissé Google faire cela parce que l’entreprise distribue un trafic très précieux.

Ensuite, les guerres de l’IA ont commencé. Il s’avère que tout ce contenu a été stocké dans des ensembles de données qui constituent la base de la formation de puissants modèles d’IA, notamment ceux d’OpenAI, Google, Meta et autres. Ces modèles répondent souvent directement aux questions des utilisateurs, de sorte que moins de trafic peut être distribué et que le grand marché du Web commence à se dérouler.

Une partie de la réponse de Google a été de lancer un nouvel outil qui permet aux sites Web d’empêcher l’entreprise d’utiliser leur contenu pour former des modèles d’IA. C’est ce qu’on appelle Google-Extended. Il est sorti en septembre et est en train d’être repris.

Les données partagées par Originality.ai montrent que l’extrait Google-Extended est utilisé par environ 10 % des 1 000 principaux sites Web, fin mars.

Utilisation d’extraits de code qui empêchent les entreprises technologiques d’utiliser du contenu en ligne pour la formation de modèles d’IA.

Originalité.ai

Le New York Times a activé le bloqueur Google-Extended, selon un examen de son fichier robots.txt. La publication, qui se livre à une vive bataille pour les droits d’auteur de l’IA avec OpenAI, a également bloqué l’accès de cette startup à son contenu.

L’entreprise est en guerre contre d’autres entreprises qui exploitent des données en ligne pour la formation de modèles d’IA ou qui compilent ce type de données pour que d’autres puissent les utiliser de la même manière.

« L’utilisation de tout appareil, outil ou processus conçu pour extraire des données ou récupérer le contenu à l’aide de moyens automatisés est interdite sans autorisation écrite préalable », déclare le NYT sur sa page robots.txt.

Les utilisations interdites incluent « le développement de tout logiciel, l’apprentissage automatique, l’intelligence artificielle (IA) et/ou les grands modèles de langage (LLM) », ajoute l’éditeur. Un porte-parole du New York Times a refusé de commenter.

Google a moins bloqué qu’OpenAI

Pour Google-Extended, d’autres sites Web ont également activé cette fonctionnalité, notamment CNN, BBC, Yelp et Business Insider, l’éditeur de cet article.

Cependant, Google-Extended a eu beaucoup moins de succès que GPTBot d’OpenAI, qui représente environ 32 % des 1 000 meilleurs sites Web. CCBot, proposé par Common Crawl, a également été davantage activé.

BI a demandé à Jonathan Gillham, PDG d’Originality.ai, pourquoi Google-Extended est moins utilisé que les autres bloqueurs de données de formation à l’IA.

Il a déclaré que si Google déployait un moteur de recherche génératif d’IA auprès du grand public, il y avait un risque que les sites qui ont bloqué l’accès de l’entreprise aux données de formation ne soient pas repris dans les résultats générés par l’IA.

« Si une question est « Quelle est la meilleure pizza profonde à Chicago ? » et qu’une pizzeria empêche l’IA de Google d’utiliser les données de son site Web pour s’entraîner, elle n’aura alors aucune connaissance de ce restaurant et ne pourra pas l’inclure dans sa réponse », a expliqué Gillham.

Google teste une première version de la recherche genAI via sa Search Generative Experience, ou SGE. On ne sait pas si l’entreprise le lancera pleinement à l’avenir, ni à quel point il sera différent du moteur de recherche traditionnel de Google.

Ces décisions contribueront grandement à décider de l’avenir du Web dans ce nouveau monde de l’IA.

Axel Springer, la société mère de Business Insider, a conclu un accord mondial pour permettre à OpenAI de former ses modèles sur les rapports de ses marques médiatiques.

Source link -57

Dix stratégies pour alléger vos dépenses face à la hausse des factures d’avril – économisez jusqu’à 6 694 £.

La censure musicale ne combat pas le racisme ni l’homophobie : mettons fin à la malveillance perçue.

Conseils pour un Envoi Recommandé Sécurisé et Efficace

Nouvelles révélations sur les fiançailles de Grant Ellis et Juliana Pasquarosa : les surprises d’Après la dernière rose

Titre : Marie Kondo au travail : Domptez votre esprit agité pour plus de productivité.

Rachel Reeves et les conséquences de sa politique économique : hausse des impôts, tarifs de Trump et bureaucratie en perspective.

Le Valais retrouve sa place au sommet du hockey sur glace après des années de disette.

Le rapport révèle que le secrétaire à la Défense Pete Hegseth a impliqué sa femme dans des réunions stratégiques

Bournemouth vs Man City : Guide pour suivre le quart de finale de la FA Cup en streaming et à la télévision

Suivez en direct le match de la FA Cup : Brighton affronte Nottingham Forest, diffusion accessible partout.

Les 3 smartphones les plus coûteux, surpassant même les iPhones

État des lieux de la performance académique des étudiants : Une comparaison avec il y a dix ans selon n-tv.de

Leroy Sané propulse le FC Bayern à la victoire contre St. Pauli, tandis que Gladbach surpasse RB Leipzig

Conseils Pratiques pour une Recommandation Efficace

Augmentation des mouvements anti-tourisme : Faut-il envisager des vacances malgré tout ?

Customize this title in frenchLes principaux sites Web empêchent Google de former des modèles d’IA sur leurs données

Google a moins bloqué qu’OpenAI