Récupération d’informations : une introduction pour les référenceurs


Lorsque nous parlons de récupération d’informations, en tant que professionnels du référencement, nous avons tendance à nous concentrer fortement sur l’étape de collecte d’informations – le crawling.

Au cours de cette phase, un moteur de recherche découvrirait et explorerait les URL auxquelles il a accès (le volume et l’étendue dépendant d’autres facteurs que nous appelons familièrement un budget d’exploration).

La phase d’exploration n’est pas quelque chose sur laquelle nous allons nous concentrer dans cet article, et je ne vais pas non plus approfondir le fonctionnement de l’indexation.

Si vous souhaitez en savoir plus sur l’exploration et l’indexation, vous pouvez le faire ici.

Dans cet article, je couvrirai certaines des bases de la recherche d’informations, qui, une fois comprises, pourraient vous aider à mieux optimiser les pages Web pour les performances de classement.

Il peut également vous aider à mieux analyser les changements d’algorithme et les mises à jour de la page de résultats des moteurs de recherche (SERP).

Pour comprendre et apprécier comment les moteurs de recherche modernes traitent la recherche d’informations pratiques, nous devons comprendre l’histoire de la recherche d’informations sur Internet, en particulier son lien avec les processus des moteurs de recherche.

En ce qui concerne la recherche d’informations numériques et les technologies de base adoptées par les moteurs de recherche, nous pouvons remonter aux années 1960 et à l’Université Cornell, où Gerard Salton a dirigé une équipe qui a développé le système de recherche d’informations SMART.

Salton est crédité d’avoir développé et utilisé la modélisation de l’espace vectoriel pour la recherche d’informations.

Modèles spatiaux vectoriels

Les modèles d’espace vectoriel sont acceptés dans la communauté des sciences des données comme un mécanisme clé dans la façon dont les moteurs de recherche « recherchent » et les plates-formes telles qu’Amazon fournissent des recommandations.

Cette méthode permet à un processeur, tel que Google, de comparer différents documents avec des requêtes lorsque les requêtes sont représentées sous forme de vecteurs.

Google a fait référence à cela dans ses documents en tant que recherche de similarité vectorielle, ou « recherche du voisin le plus proche », définie par Donald Knuth en 1973.

Dans une recherche par mot-clé traditionnelle, le processeur utiliserait des mots-clés, des balises, des étiquettes, etc., dans la base de données pour trouver un contenu pertinent.

C’est assez limité, car cela restreint le champ de recherche dans la base de données car la réponse est un oui ou un non binaire. Cette méthode peut également être limitée lors du traitement des synonymes et des entités associées.

Plus les deux entités sont proches en termes de proximité, moins il y a d’espace entre les vecteurs et plus ils sont réputés avoir une similarité/précision élevée.

Pour lutter contre cela et fournir des résultats pour les requêtes avec plusieurs interprétations communes, Google utilise la similarité vectorielle pour lier diverses significations, synonymes et entités.

Un bon exemple de cela est lorsque vous recherchez mon nom sur Google.

À Google, [dan taylor] peut être:

  • Moi, la personne SEO.
  • Journaliste sportif britannique.
  • Un journaliste local.
  • Le lieutenant Dan Taylor de Forrest Gump.
  • Un photographe.
  • Un maquettiste.

En utilisant la recherche par mot-clé traditionnelle avec des critères binaires oui/non, vous n’obtiendriez pas cette répartition des résultats sur la première page.

Avec la recherche vectorielle, le processeur peut produire une page de résultats de recherche basée sur la similarité et les relations entre différentes entités et vecteurs dans la base de données.

Vous pouvez lire le blog de l’entreprise ici pour en savoir plus sur la façon dont Google l’utilise sur plusieurs produits.

Correspondance de similarité

Lors de la comparaison de documents de cette manière, les moteurs de recherche utilisent probablement une combinaison de la pondération des termes de requête (QTW) et du coefficient de similarité.

QTW applique une pondération à des termes spécifiques dans la requête, qui est ensuite utilisée pour calculer un coefficient de similarité à l’aide du modèle d’espace vectoriel et calculé à l’aide du coefficient de cosinus.

La similarité cosinus mesure la similarité entre deux vecteurs et, dans l’analyse de texte, est utilisée pour mesurer la similarité du document.

Il s’agit d’un mécanisme probable dans la façon dont les moteurs de recherche déterminent le contenu en double et les propositions de valeur sur un site Web.

Le cosinus est mesuré entre -1 et 1.

Traditionnellement sur un graphe de similarité cosinus, il sera mesuré entre 0 et 1, 0 étant la dissemblance maximale, ou orthogonale, et 1 étant la similarité maximale.

Le rôle d’un index

En référencement, nous parlons beaucoup de l’index, de l’indexation et des problèmes d’indexation – mais nous ne parlons pas activement du rôle de l’index dans les moteurs de recherche.

Le but d’un index est de stocker des informations, ce que Google fait via des systèmes d’indexation à plusieurs niveaux et des fragments, pour agir comme un réservoir de données.

En effet, il est irréaliste, non rentable et une mauvaise expérience pour l’utilisateur final d’accéder à distance (explorer) des pages Web, d’analyser leur contenu, de le noter, puis de présenter un SERP en temps réel.

En règle générale, un index de moteur de recherche moderne ne contiendrait pas une copie complète de chaque document, mais plutôt une base de données de points clés et de données qui ont été tokenisées. Le document lui-même vivra alors dans un cache différent.

Bien que nous ne connaissions pas exactement les processus que les moteurs de recherche tels que Google suivront dans le cadre de leur système de recherche d’informations, ils comporteront probablement des étapes :

  • Analyse structurelle – Format et structure du texte, listes, tableaux, images, etc.
  • Enracinement – Réduire les variations d’un mot à sa racine. Par exemple, « recherché » et « recherche » seraient réduits à « recherche ».
  • Analyse lexicale – Conversion du document en une liste de mots, puis analyse pour identifier les facteurs importants tels que les dates, les auteurs et la fréquence des termes. A noter, ce n’est pas la même chose que TF*IDF.

Nous nous attendons également à ce que pendant cette phase, d’autres considérations et points de données soient pris en compte, tels que les backlinks, le type de source, le fait que le document respecte ou non le seuil de qualité, les liens internes, le contenu principal/contenu de support, etc.

Précision et post-récupération

En 2016, Paul Haahr a donné un excellent aperçu de la façon dont Google mesure le « succès » de son processus et aussi comment il applique les ajustements post-récupération.

Vous pouvez visionner sa présentation ici.

Dans la plupart des systèmes de recherche d’informations, il existe deux mesures principales de la capacité du système à renvoyer un bon ensemble de résultats.

Ce sont la précision et le rappel.

Précision

Le nombre de documents renvoyés qui sont pertinents par rapport au nombre total de documents renvoyés.

De nombreux sites Web ont vu une baisse du nombre total de mots-clés pour lesquels ils se classent au cours des derniers mois (comme des mots-clés bizarres et marginaux pour lesquels ils n’avaient probablement pas le droit de se classer). Nous pouvons supposer que les moteurs de recherche affinent le système de recherche d’informations pour une plus grande précision.

Rappeler

Le nombre de documents pertinents par rapport au nombre total de documents pertinents retournés.

Les moteurs de recherche se concentrent davantage sur la précision que sur le rappel, car la précision conduit à de meilleures pages de résultats de recherche et à une plus grande satisfaction des utilisateurs. Il sollicite également moins le système en renvoyant plus de documents et en traitant plus de données que nécessaire.

Conclusion

La pratique de la recherche d’informations peut être complexe en raison des différentes formules et mécanismes utilisés.

Par exemple:

Comme nous ne savons pas ou ne comprenons pas entièrement comment ce processus fonctionne dans les moteurs de recherche, nous devrions nous concentrer davantage sur les bases et les directives fournies plutôt que d’essayer de métriques de jeu comme TF * IDF qui peuvent ou non être utilisées (et varient dans la façon dont elles pèsent dans le résultat global).

Davantage de ressources:


Image en vedette : BRO.vector/Shutterstock





Source link -16