Crawl de site par un moteur de recherche : comment cela fonctionne ?
Crawl de site par un moteur de recherche : comment cela fonctionne ?

L’objectif des moteurs de recherche est de fournir des résultats appropriés aux requêtes formulées par les internautes. La première étape, pour arriver à cela, est de connaître les sites pour ensuite les évaluer et les classer. La connaissance des sites se fait par le crawl, qui est le fait d’explorer un site web par l’intermédiaire d’un robot d’indexation.

Qu’est-ce qu’un robot d’indexation ?

Le robot d’indexation, appelé aussi crawler, spider ou plus sobrement bot est un logiciel ayant pour instruction d’explorer le web afin d’analyser le contenu des pages qui seront alors stockées dans un index.

Chaque moteur de recherche a son propre robot :

  • Googlebot, le spider de Google ;
  • Bingbot, le crawler de Bing ;
  • Yahoo! Slurp, celui de Yahoo! ;
  • etc.

Déroulement de la navigation du robot

Navigation de lien en lien

 

Le crawler parcourt le web de façon autonome, en lisant le code HTML de chaque page (code visible en faisant un clic droit sur la page web souhaitée et en sélectionnant « Afficher le code source de la page »).
Ensuite, pour naviguer de page en page, il utilisera tous les liens qu’il croisera, afin de lire les pages suivantes où il croisera à nouveau des liens qu’il visitera, et ainsi de suite. Ce travail continue jusqu’au moment où le bot arrive sur une page sans liens ou une page avec une erreur.

Besoin d’un indice pour connaître la date de la dernière visite du bot ? Direction le site en cache, en cliquant sur la flèche verte se trouvant sous le titre, à droite, du résultat de recherche qui vous intéresse :

Capture d'écran du résultat Google de l'agence 1789.fr

Vous aurez ainsi accès au site, tel qu’il était au moment de la dernière visite du bot et, en haut, vous pourrez voir un bandeau avec la date et l’heure de la dernière visite du robot :

Cache Google du site de 1789.fr

Le site de 1789.fr a été visité pour la dernière fois le 26 août 2019 à 02h41.

Limiter les accès du robot à certaines URLs

 

D’un point de vue SEO, il n’est pas intéressant que le robot indexe toutes les pages de votre site, comme c’est le cas des pages de recherche, pages de connexion, …

Plusieurs alternatives s’offrent à vous pour qu’il ne tarde pas dessus :

  • signaler ces pages sur le fichier robots.txt en disallow puisque ce fichier existe afin d’indiquer les zones à ne pas crawler sur un site (exemples : pages de recherche, pages de filtre, pages de connexion, … qui ont un impact négatif en terme de SEO et utiliseront du budget crawl inutilement) ;
  • lorsque vous ne souhaitez pas qu’une page en lien ne soit pas suivi, vous pouvez indiquer rel=“nofollow” dans la balise <a>.

Sans indication de votre part, le robot passera sur l’ensemble des pages de votre site, sans distinction, ce qui pourrait avoir un impact sur votre budget crawl.

Nouveau site : comment garantir son indexation rapidement ?

 

Lors de la mise en ligne d’un site, les premières pages indexées peuvent se faire en moins d’une semaine voire plusieurs semaines.
Afin de faciliter le processus d’indexation, vous pouvez tisser des liens avec d’autres sites déjà indexés, notamment par l’intermédiaire d’un article invité. La deuxième alternative est de passer par la Search Console en soumettant manuellement l’URL ou en envoyant le sitemap.

Budget crawl

Afin de favoriser l’indexation du site, il faut prendre conscience de l’importance du budget crawl, qui représente le nombre limite de pages qui seront visitées par le bot du moteur de recherche. Cette limite est fixée sur plusieurs critères :

  • la taille du site ;
  • la vitesse d’exploration ;
  • la fréquence de mise à jour ;
  • la facilité à crawler ;
  • le domaine d’autorité (confiance que le moteur porte sur le site en fonction de sa popularité).

Ce système a pour but de limiter le temps passé sur chaque site pour en visiter le plus possible. Bien évidemment, le crawler sera amené à revenir afin de mettre à jour ses données et apporter d’éventuelles modifications. Celui-ci va concentrer ses efforts sur les pages mises à jour fréquemment et celles qui reçoivent beaucoup de liens (d’où l’importance d’un bon netlinking). Plus une page sera crawlée, plus la page aura des possibilités de se positionner.

Optimiser son budget crawl

 

Ainsi, vu l’importance de ce budget crawl, il est nécessaire de l’optimiser dans le cadre de votre stratégie SEO par l’analyse du log serveur, qui est l’historique des actions exécutées.

Par l’analyse de log, vous pourrez répondre aux questions suivantes :

  • Les pages crawlées sont-elles les plus importantes ?
  • Est-ce que des pages moins importantes sont favorisées par le crawl ?
  • Y a-t-il des erreurs qui ont été rencontrées par le crawl ?

Selon les réponses, l’adaptation du contenu ainsi que du maillage interne du site seront de rigueur afin d’améliorer la visibilité et le référencement de votre site.