Combien de temps avant que Google n’indexe ma nouvelle page (et pourquoi cela dépend) ?

[ad_1]

Vous ne pouvez pas attendre que votre nouveau contenu soit indexé ?

Découvrez pourquoi il est si difficile d’estimer la durée de l’indexation et ce que vous pouvez faire pour accélérer les choses.

L’indexation est le processus de téléchargement d’informations à partir de votre site Web, de leur catégorisation et de leur stockage dans une base de données. Cette base de données – l’index Google – est la source de toutes les informations que vous pouvez trouver via la recherche Google.

Les pages qui ne sont pas incluses dans l’index ne peuvent pas apparaître dans les résultats de recherche, même si elles correspondent à une requête donnée.

Supposons que vous avez récemment ajouté une nouvelle page à votre blog. Dans votre nouveau message, vous discutez d’un sujet tendance, en espérant qu’il vous apportera beaucoup de nouveau trafic.

Mais avant de pouvoir voir comment la page se comporte sur la recherche Google, vous devez attendre qu’elle soit indexée.

Alors, combien de temps exactement ce processus prend-il? Et quand devriez-vous commencer à vous inquiéter que le manque d’indexation puisse signaler des problèmes techniques sur votre site ?

Enquêtons !

Combien de temps dure l’indexation ? Les meilleures suppositions des experts

L’index Google contient des centaines de milliards de pages Web et occupe plus de 100 millions de gigaoctets de mémoire.

De plus, Google ne limite pas le nombre de pages d’un site Web pouvant être indexées. Bien que certaines pages puissent avoir la priorité dans la file d’attente d’indexation, les pages n’ont généralement pas à entrer en compétition pour l’indexation.

Il devrait encore y avoir de la place pour une petite page de plus dans cette base de données colossale, n’est-ce pas ? Vous n’avez pas à vous soucier de votre entrée de blog ? Malheureusement, vous devrez peut-être le faire.

Google admet que toutes les pages traitées par ses robots ne seront pas indexées.

En janvier 2021, Google Search Advocate, John Mueller, a développé le sujet, révélant qu’il est assez normal que Google n’indexe pas toutes les pages d’un grand site Web.

Il a expliqué que le défi pour Google est d’essayer d’équilibrer le désir d’indexer autant de contenu que possible et d’estimer s’il sera utile aux utilisateurs des moteurs de recherche.

Par conséquent, dans de nombreux cas, ne pas indexer un contenu donné est le choix stratégique de Google.

Google ne souhaite pas que son index inclue des pages de mauvaise qualité, du contenu en double ou des pages peu susceptibles d’être recherchées par les utilisateurs. La meilleure façon de garder le spam hors des résultats de recherche est de ne pas l’indexer.

Mais tant que vous conservez la valeur et l’utilité de vos articles de blog, ils sont toujours indexés, n’est-ce pas ?

La réponse est compliquée.

Tomek Rudzki, un expert en indexation chez Onely – une entreprise pour laquelle je travaille – a calculé qu’en moyenne, 16 % des pages précieuses et indexables sur les sites Web populaires ne sont jamais indexées.

Existe-t-il une garantie que votre page sera indexée ?

Comme vous l’avez peut-être déjà deviné d’après le titre de cet article, il n’y a pas de réponse définitive à cette question d’indexation.

Vous ne pourrez pas définir vous-même un rappel de calendrier le jour où votre article de blog doit être indexé.

Mais de nombreuses personnes ont déjà posé la même question, exhortant les Googleurs et les professionnels du référencement expérimentés à fournir quelques conseils.

John Mueller dit que cela peut prendre de plusieurs heures à plusieurs semaines pour qu’une page soit indexée. Il soupçonne que la plupart des bons contenus sont récupérés et indexés en une semaine environ.

Les recherches menées par Rudzki ont montré qu’en moyenne, 83% des pages sont indexées au cours de la première semaine de publication.

Certaines pages doivent attendre jusqu’à huit semaines pour être indexées. Bien sûr, cela ne s’applique qu’aux pages qui finissent par être indexées.

Demande de crawl et budget de crawl

Pour qu’une nouvelle page de votre blog soit découverte et indexée, Googlebot doit réexplorer le blog.

La fréquence à laquelle Googlebot explore à nouveau votre site Web a certainement un impact sur la rapidité avec laquelle votre nouvelle page sera indexée, et cela dépend de la nature du contenu et de la fréquence à laquelle il est mis à jour.

Les sites Web d’actualités qui publient très souvent de nouveaux contenus doivent être réexaminés fréquemment. On peut dire qu’il s’agit de sites à forte demande de crawl.

Un exemple de site à faible demande d’exploration serait un site sur l’histoire de la forge, car il est peu probable que son contenu soit mis à jour très fréquemment.

Google détermine automatiquement si le site a une demande d’exploration faible ou élevée. Lors de l’exploration initiale, il vérifie de quoi parle le site Web et quand il a été mis à jour pour la dernière fois.

La décision de crawler le site n’a plus ou moins souvent rien à voir avec la qualité du contenu – le facteur décisif est la fréquence estimée des mises à jour.

Le deuxième facteur important est le taux de crawl. C’est le nombre de requêtes que Googlebot peut effectuer sans surcharger votre serveur.

Si vous hébergez votre blog sur un serveur à faible bande passante et que Googlebot remarque que le serveur ralentit, il ajustera et réduira la vitesse d’exploration.

D’autre part, si le site répond rapidement, la limite augmente et Googlebot peut explorer davantage d’URL.

Que doit-il se passer avant que votre page soit indexée ?

Étant donné que l’indexation prend du temps, on peut aussi se demander – comment exactement ce temps est-il passé ?

Comment les informations de votre site Web sont-elles classées et incluses dans l’index Google ?

Discutons des événements qui doivent se produire avant l’indexation.

Découverte de contenu

Revenons à l’exemple dans lequel vous avez publié une nouvelle entrée de blog. Googlebot doit découvrir l’URL de cette page lors de la première étape du pipeline d’indexation.

Cela peut arriver par :

  • Suivi des liens internes que vous avez fourni sur d’autres pages de votre blog.
  • Suivi des liens externes créé par des personnes qui ont trouvé votre nouveau contenu utile.
  • Parcourir un sitemap XML que vous avez téléchargé sur Google Search Console.

Le fait que la page ait été découverte signifie que Google connaît son existence et son URL.

Rampant

L’exploration est le processus de visite de l’URL et de récupération du contenu de la page.

Lors de l’exploration, Googlebot collecte des informations sur le sujet principal d’une page donnée, les fichiers que contient cette page, les mots-clés qui y figurent, etc.

Après avoir trouvé des liens sur une page, le robot les suit jusqu’à la page suivante, et le cycle continue.

Il est important de se rappeler que Googlebot suit les règles définies par robots.txt afin qu’il n’explore pas les pages bloquées par les directives que vous fournissez dans ce fichier.

Le rendu

Capture d’écran de Google Search Console, septembre 2022

Le rendu doit avoir lieu pour que Googlebot comprenne à la fois le contenu JavaScript et les fichiers images, audio et vidéo.

Ces types de fichiers ont toujours été plus difficiles pour Google que HTML.

L’avocat des développeurs de Google, Martin Splitt, a comparé le rendu à la cuisson d’un plat.

Dans cette métaphore, le fichier HTML initial d’un site Web avec des liens vers d’autres contenus est une recette. Vous pouvez appuyer sur F12 sur votre clavier pour l’afficher dans votre navigateur.

Toutes les ressources du site Web, telles que les fichiers CSS, JavaScript, les images et les vidéos, sont les ingrédients nécessaires pour donner au site Web son aspect final.

Lorsque le site Web atteint cet état, vous avez affaire au HTML rendu, plus souvent appelé Document Object Model.

Martin a également déclaré que l’exécution de JavaScript est la toute première étape de rendu, car JavaScript fonctionne comme une recette dans une recette.

Dans un passé pas trop lointain, Googlebot avait l’habitude d’indexer la version HTML initiale d’une page et de laisser le rendu JavaScript tard en raison du coût et de la durée du processus.

L’industrie du référencement a qualifié ce phénomène de « deux vagues d’indexation ».

Cependant, il semble maintenant que les deux vagues ne soient plus nécessaires.

Mueller et Splitt ont admis que, de nos jours, presque tous les nouveaux sites Web passent par l’étape de rendu par défaut.

L’un des objectifs de Google est de rapprocher l’exploration, le rendu et l’indexation.

Pouvez-vous obtenir votre page indexée plus rapidement ?

Vous ne pouvez pas forcer Google à indexer votre nouvelle page.

La rapidité avec laquelle cela se produit est également hors de votre contrôle. Cependant, vous pouvez optimiser vos pages afin que la découverte et l’exploration se déroulent aussi bien que possible.

Voici ce que vous devez faire :

Assurez-vous que votre page est indexable

Il y a deux règles importantes à suivre pour garder vos pages indexables :

  • Vous devez éviter de les bloquer par robots.txt ou la directive noindex.
  • Vous devez marquer la version canonique d’un élément de contenu donné avec une balise canonique.

Robots.txt est un fichier contenant des instructions pour les robots visitant votre site.

Vous pouvez l’utiliser pour spécifier quels robots ne sont pas autorisés à visiter certaines pages ou certains dossiers. Tout ce que vous avez à faire est d’utiliser la directive Disallow.

Par exemple, si vous ne voulez pas que les robots visitent les pages et les fichiers du dossier intitulé « example », votre fichier robots.txt doit contenir les directives suivantes :

User-agent: *

Disallow: /example/

Parfois, il est possible d’empêcher Googlebot d’indexer par erreur des pages importantes.

Si vous craignez que votre page ne soit pas indexée en raison de problèmes techniques, vous devez absolument jeter un œil à votre fichier robots.txt.

Googlebot est poli et ne transmettra aucune page qui lui a été refusée au pipeline d’indexation. Une façon d’exprimer une telle commande est de mettre une directive noindex dans :

Assurez-vous que cette directive n’apparaît pas sur les pages qui doivent être indexées.

Comme nous en avons discuté, Google veut éviter d’indexer le contenu dupliqué. S’il trouve deux pages qui ressemblent à des copies l’une de l’autre, il n’en indexera probablement qu’une seule.

La balise canonique a été créée pour éviter les malentendus et diriger immédiatement Googlebot vers l’URL que le propriétaire du site Web considère comme la version originale de la page.

N’oubliez pas que le code source d’une page que vous souhaitez voir apparaître dans l’index Google ne doit pas pointer vers une autre page comme canonique.

Soumettre un plan du site

Un sitemap répertorie toutes les URL de votre site Web que vous souhaitez indexer (jusqu’à 50 000).

Vous pouvez le soumettre à Google Search Console pour aider Google à découvrir le plan du site plus rapidement.

Avec un sitemap, vous permettez à Googlebot de découvrir plus facilement vos pages et augmentez ses chances d’explorer celles qu’il n’a pas trouvées en suivant des liens internes.

Il est recommandé de référencer le sitemap dans votre fichier robots.txt.

Demandez à Google de réexplorer vos pages

Inspecter l'outil GSCCapture d’écran de Google Search Console, septembre 2022

Vous pouvez demander une exploration d’URL individuelles à l’aide de l’outil d’inspection d’URL disponible dans Google Search Console.

Cela ne garantira toujours pas l’indexation et vous aurez besoin de patience, mais c’est une autre façon de s’assurer que Google sait que votre page existe.

Si pertinent, utilisez l’API d’indexation de Google

L’API d’indexation est un outil vous permettant d’informer Google des pages fraîchement ajoutées.

Grâce à cet outil, Google peut planifier plus efficacement l’indexation des contenus sensibles au facteur temps.

Malheureusement, vous ne pouvez pas l’utiliser pour vos articles de blog car, actuellement, cet outil est destiné uniquement aux pages avec des offres d’emploi et des vidéos en direct.

Bien que certains professionnels du référencement utilisent l’API d’indexation pour d’autres types de pages – et cela peut fonctionner à court terme – il est peu probable qu’elle reste une solution viable à long terme.

Empêcher la surcharge du serveur sur votre site

Enfin, pensez à assurer une bonne bande passante de votre serveur afin que Googlebot ne réduise pas le crawl rate de votre site web.

Évitez d’utiliser des fournisseurs d’hébergement partagé et n’oubliez pas de tester régulièrement votre serveur pour vous assurer qu’il peut gérer le travail.

Sommaire

Il est impossible de prédire avec précision combien de temps il faudra pour que votre page soit indexée (ou si cela se produira un jour) car Google n’indexe pas tout le contenu qu’il traite.

Généralement, l’indexation se produit des heures à des semaines après la publication.

Le plus gros goulot d’étranglement pour être indexé est d’être rapidement exploré.

Si votre contenu respecte les seuils de qualité et qu’il n’y a pas d’obstacles techniques à l’indexation, vous devez d’abord examiner comment Googlebot explore votre site pour indexer rapidement le nouveau contenu.

Avant qu’une page ne soit redirigée vers le pipeline d’indexation, Googlebot l’explore et, dans de nombreux cas, affiche des images, des vidéos et des éléments JavaScript intégrés.

Les sites Web qui changent plus souvent et, par conséquent, ont une demande d’exploration plus élevée sont réexplorés plus souvent.

Lorsque Googlebot visite votre site Web, il correspond au taux de crawl en fonction du nombre de requêtes qu’il peut envoyer à votre serveur sans le surcharger.

Par conséquent, il vaut la peine de veiller à une bonne bande passante du serveur.

Ne bloquez pas Googlebot dans robots.txt car il n’explorera pas vos pages.

N’oubliez pas que Google respecte également la balise meta noindex robots et n’indexe généralement que la version canonique de l’URL.

Davantage de ressources:


Image en vedette : Kristo-Gothard Hunor/Shutterstock



[ad_2]

Source link -16