Customize this title in frenchComment gérer le budget de crawl pour les grands sites

Make this article seo compatible,Let there be subheadings for the article, be in french, create at least 700 wordsInternet est un univers virtuel en constante évolution avec plus de 1,1 milliard de sites Web. Pensez-vous que Google peut explorer tous les sites Web du monde ? Même avec toutes les ressources, l’argent et les centres de données dont dispose Google, il ne peut même pas explorer l’intégralité du Web, et il ne le souhaite pas non plus. Qu’est-ce que le Crawl Budget, et est-ce important ? Le budget d’exploration fait référence au temps et aux ressources que Googlebot consacre à l’exploration des pages Web d’un domaine. Il est important d’optimiser votre site afin que Google trouve votre contenu plus rapidement et indexe votre contenu, ce qui pourrait aider votre site à obtenir une meilleure visibilité et un meilleur trafic. Si vous avez un gros site qui compte des millions de pages web, il est particulièrement important de bien gérer votre budget de crawl pour aider Google à crawler vos pages les plus importantes et mieux comprendre votre contenu. Google indique que : Si votre site ne comporte pas un grand nombre de pages qui changent rapidement, ou si vos pages semblent être crawlées le jour même de leur publication, il suffit de tenir à jour votre sitemap et de vérifier régulièrement la couverture de votre index. Google indique également que chaque page doit être examinée, consolidée et évaluée pour déterminer où elle sera indexée après avoir été explorée. Le budget de crawl est déterminé par deux éléments principaux : la limite de capacité de crawl et la demande de crawl. La demande d’exploration correspond à la quantité d’exploration que Google souhaite effectuer sur votre site Web. Les pages les plus populaires, c’est-à-dire une histoire populaire de CNN et les pages qui subissent des changements importants, seront davantage explorées. Googlebot veut explorer votre site sans submerger vos serveurs. Pour éviter cela, Googlebot calcule une limite de capacité d’exploration, qui correspond au nombre maximal de connexions parallèles simultanées que Googlebot peut utiliser pour explorer un site, ainsi que le délai entre les récupérations. En combinant la capacité de crawl et la demande de crawl, Google définit le budget de crawl d’un site comme l’ensemble d’URL que Googlebot peut et veut explorer. Même si la limite de capacité de crawl n’est pas atteinte, si la demande de crawl est faible, Googlebot explorera moins votre site. Voici les 12 meilleurs conseils pour gérer le budget de crawl pour les grands et moyens sites avec 10 000 à des millions d’URL. 1. Déterminez quelles pages sont importantes et lesquelles ne doivent pas être explorées Déterminez quelles pages sont importantes et quelles pages ne sont pas si importantes à explorer (et donc, Google visite moins fréquemment). Une fois que vous avez déterminé cela grâce à l’analyse, vous pouvez voir quelles pages de votre site valent la peine d’être explorées et quelles pages de votre site ne valent pas la peine d’être explorées et les exclure de l’exploration. Par exemple, Macys.com compte plus de 2 millions de pages indexées. Capture d’écran de la recherche de [site: macys.com]Google, juin 2023Il gère son budget de crawl en informant Google de ne pas crawler certaines pages du site car cela empêchait Googlebot de crawler certaines URL dans le fichier robots.txt. Googlebot peut décider qu’il ne vaut pas la peine d’examiner le reste de votre site ou d’augmenter votre budget de crawl. Assurez-vous que la navigation à facettes et les identifiants de session : sont bloqués via robots.txt 2. Gérer le contenu dupliqué Bien que Google n’impose pas de pénalité en cas de contenu dupliqué, vous souhaitez fournir à Googlebot des informations originales et uniques qui répondent aux besoins d’information de l’utilisateur final et qui sont pertinentes et utiles. Assurez-vous que vous utilisez le fichier robots.txt. Google a déclaré de ne pas utiliser d’index, car il demandera toujours mais abandonnera ensuite. 3. Bloquez l’exploration d’URL sans importance à l’aide de Robots.txt et indiquez à Google quelles pages il peut explorer Pour un site d’entreprise avec des millions de pages, Google recommande de bloquer l’exploration des URL sans importance à l’aide de robots.txt. En outre, vous voulez vous assurer que vos pages importantes, les répertoires contenant votre contenu privilégié et les pages d’argent sont autorisés à être explorés par Googlebot et d’autres moteurs de recherche. Capture d’écran de l’auteur, juin 2023 4. Longues chaînes de redirection Gardez votre nombre de redirections à un petit nombre si vous le pouvez. Avoir trop de redirections ou de boucles de redirection peut perturber Google et réduire votre limite d’exploration. Google déclare que de longues chaînes de redirection peuvent avoir un effet négatif sur l’exploration. 5. Utilisez HTML L’utilisation de HTML augmente les chances qu’un robot d’exploration de n’importe quel moteur de recherche visite votre site Web. Alors que Googlebots s’est amélioré en matière d’exploration et d’indexation de JavaScript, d’autres robots d’exploration de moteurs de recherche ne sont pas aussi sophistiqués que Google et peuvent avoir des problèmes avec d’autres langages autres que HTML. 6. Assurez-vous que vos pages Web se chargent rapidement et offrent une bonne expérience utilisateur Assurez-vous que votre site est optimisé pour Core Web Vitals. Plus votre contenu se charge rapidement, c’est-à-dire en moins de trois secondes, plus Google peut fournir rapidement des informations aux utilisateurs finaux. S’ils l’aiment, Google continuera d’indexer votre contenu car votre site démontrera la santé de l’exploration de Google, ce qui peut augmenter votre limite d’exploration. 7. Ayez du contenu utile Selon Google, le contenu est évalué en fonction de sa qualité, quel que soit son âge. Créez et mettez à jour votre contenu si nécessaire, mais il n’y a aucune valeur supplémentaire à faire apparaître artificiellement des pages fraîches en apportant des modifications insignifiantes et en mettant à jour la date de la page. Si votre contenu répond aux besoins des utilisateurs finaux et, c’est-à-dire utile et pertinent, qu’il soit ancien ou nouveau n’a pas d’importance. Si les utilisateurs ne trouvent pas votre contenu utile et pertinent, je vous recommande de mettre à jour et d’actualiser votre contenu pour qu’il soit frais, pertinent et utile et de le promouvoir via les médias sociaux. Reliez également vos pages directement à la page d’accueil, qui peut être considérée comme plus importante et explorée plus souvent. 8. Méfiez-vous des erreurs de crawl Si vous avez supprimé certaines pages de votre site, assurez-vous que l’URL renvoie un statut 404 ou 410 pour les pages supprimées définitivement. Un code d’état 404 est un signal fort pour ne pas explorer à nouveau cette URL. Cependant, les URL bloquées resteront dans votre file d’attente d’exploration beaucoup plus longtemps et seront réexplorées lorsque le blocage sera supprimé. En outre, Google déclare supprimer toutes les pages 404 logicielles, qui continueront d’être explorés et gaspilleront votre budget d’exploration. Pour tester cela, allez dans GSC et examinez votre rapport de couverture d’index pour les erreurs 404 logicielles. Si votre site comporte de nombreux codes d’état de réponse HTTP 5xx (erreurs de serveur) ou si les délais de connexion indiquent le contraire, l’exploration ralentit. Google recommande de prêter attention au rapport Crawl Stats dans la Search Console et de réduire au minimum le nombre d’erreurs de serveur. Soit dit en passant, Google ne respecte pas ou n’adhère pas à la règle robots.txt non standard « crawl-delay ». Même si vous utilisez l’attribut nofollow, la page peut toujours être explorée et gaspiller le budget d’exploration si une autre page de votre site, ou n’importe quelle page sur le Web, ne marque pas le lien comme nofollow. 9. Gardez les plans de site à jour Les sitemaps XML sont importants pour aider Google à trouver votre contenu et peuvent accélérer les choses. Il est extrêmement important de maintenir à jour les URL de votre sitemap, d’utiliser la balise pour le contenu mis à jour et de suivre les meilleures pratiques de référencement, y compris, mais sans s’y limiter, les suivantes. N’incluez que les URL que vous souhaitez voir indexées par les moteurs de recherche. N’incluez que les URL qui renvoient un code d’état 200. Assurez-vous qu’un seul fichier de plan de site fait moins de 50 Mo ou 50 000 URL, et si vous décidez d’utiliser plusieurs plans de site, créez un indexer le plan du site qui les listera tous. Assurez-vous que votre sitemap est encodé en UTF-8. Inclure liens vers les versions localisées de chaque URL. (Voir la documentation de Google.) Gardez votre sitemap…

Source link -57