Comment fonctionne le Googlebot ?

Guide Googlebot SEO

Googlebot est un Robot d’exploration (User-Agent). Ces robots sont surnommés “Web crawleurs” ou “SEO spiders”, analysent et récupèrent des ressources sur des pages web. Bien que ce soit un simple programme informatique, la connaissance de son fonctionnement s’avère cruciale en matière de référencement naturel.

En français, “crawl” peut se traduire par « marcher à quatre pattes / ramper », cela représente la façon dont Googlebot parcourt les pages du World Wide Web.

Le rôle du Spider SEO de Google

À partir d’un répertoire d’URL déjà parcouru (déjà crawler) et complété par les données Sitemap des webmasters (schéma de structure d’un site), son rôle est de :

  • Parcourir et télécharger les données de chaque site Web en se déplaçant de lien en lien, d’une page à l’autre.
  • Déterminer quel site visiter, quand et combien de pages sont liées à ce dernier.
  • Répertorier tous les nouveaux domaines à indexer au sein des moteurs de recherche, les mises à jour des sites, les liens vers les URL et vers les images, les liens morts.
  • Il utilise ensuite ces données pour mettre à jour l’index Google, en plus de les ajouter à la liste d’URL vue précédemment.

À noter que l’index du moteur de recherche Google est le répertoire de milliards de sites Web mis à disposition des utilisateurs. Tout nouveau contenu doit être indexé pour être visible depuis la SERP (Search Engine Results Pages ou page de résultats de recherche). L’indexation est donc le fait de rendre un contenu (domaine, site Web, page, article, etc..) accessible pour les internautes depuis les résultats de recherche. Googlebot ne fait que passer, il ne légitime en rien les contenus qu’il répertorie, c’est le rôle de l’index Google.

 

Index Google

 

Ce programme informatique représente le point de départ du référencement naturel des sites Web, c’est la première étape de l’apparition d’un contenu sur un moteur de recherche. Le robot officie de manière simultanée, et en l’espace de quelques secondes, depuis des ordinateurs proches du site serveur. Cette façon d’opérer permet de ne pas perdre en performance, en portée, mais surtout de ne pas obstruer la bande passante des serveurs analysés. C’est environ un million de serveurs employés pour parcourir (crawler) internet, l’IP d’un robot n’est donc pas fixe.

Expérience utilisateur, fréquence et budget de crawl

L’User-Agent met un point d’honneur à l’expérience utilisateur

Le robot explore un site à la manière d’un utilisateur selon une fréquence qu’il détermine lui-même (selon la popularité de votre site, selon vos choix techniques, etc.). Il fera toujours en sorte de ne pas compromettre l’expérience utilisateur. Le robot va alors tester le site et déterminer une limite à la « fréquence de crawl » (soit combien de PC effectueront un crawl en simultanée et le temps d’attente entre deux itérations) en fonction de :

  • La connexion serveur, si le site répond vite pendant une période conséquente, sa limite augmentera. À l’inverse si le site met du temps à répondre ou à la moindre erreur de serveur, sa limite diminuera.
  • La limite de crawl appliquée par les webmasters depuis la Search Console. À noter que s’il l’augmente, le crawl ne s’intensifiera pas forcément étant donné que Googlebot paramètre lui-même ses actions.

 

Crawl Search Console

 

Un budget de crawl à prendre à la légère

Le budget de crawl est la combinaison entre la fréquence d’exploration et la quantité de ressources de crawl. La quantité de ressources mise à disposition pour une exploration représente le nombre de connexions simultanées vers une URL et le temps de pause entre deux visites.

Dans beaucoup de cas, un site Web est observé le jour de sa mise en ligne. Google affirme que le budget de crawl est à prendre à la légère.

Plus de ressources seront mises à disposition pour un site :

  • Populaire, dans le but de le tenir mis à jour au sein de l’index Google.
  • En migration au vu du nombre conséquent d’URL à indexer.
  • Susceptible de devenir obsolète. Google prône l’expérience utilisateur, souhaitant ainsi désindexer les sites à l’abandon.

Selon Google si votre domaine comporte moins de plusieurs milliers d’URL alors il sera crawlé efficacement. À l’inverse, pour les sites ou pages n’ayant été impliqués dans aucune demande d’indexation, Googlebot restreindra ses capacités de crawl, même si sa limite n’est pas atteinte.

Si dans votre cas il s’agit d’un site important alors il faut mesurer sa capacité à être parcouru (crawl), à savoir combien de fois et quelles ressources sont mises à disposition pour le crawl. En effet selon la fréquence de crawl, le Googlebot occupera une portion plus ou moins importante de la bande passante de votre serveur Web, il est donc important de connaitre sa fréquence en fonction de votre trafic.

 

Définissez vous-même les actions de Googlebot

Google utilise de nombreux User-Agent comme Googlebot pour agir sur le Web. Il est possible de leur indiquer la marche à suivre, jetez un œil à la liste des différents User-Agent :

 

Robots d'exploration Google Robots d'exploration Google Robots d'exploration Google

Source : https://support.google.com/webmasters/answer/1061943?hl=fr&ref_topic=4610900

 

Il existe alors trois façons de leur donner des directives :

Prenez connaissance du fichier Robots.txt

Il est possible d’indiquer à un User-Agent de bloquer son passage sur votre site, mais le simple fait de bloquer Googlebot depuis le fichier robot.txt revient à tous les bloquer.

 

Googlebot robots.txt

Ces deux premières lignes lui donnent un total accès, à l’inverse des deux suivantes.

Enfin, vous lui indiquez l’emplacement des données Sitemap.

 

On en parler précédemment, Googlebot référence tous les liens pour ensuite les suivre et répertorier tout ce qui se trouve sur la page. Cela dit, vous pouvez lui indiquer s’il doit suivre un lien ou non.

Une note sur le fichier robot.txt s’impose ! C’est le fichier lu en premier par Google quand il parcourt (crawl) un site, ce fichier est présent tout en haut du dossier serveur et son emplacement est déterminant, s’il n’est pas exactement en haut alors il n’existe pas aux yeux de Google.

Si le fichier robots.txt contenant les informations liées à l’User-Agent est présent dans votre serveur, cela augmentera votre crédibilité en matière de référencement. D’autant plus que Google vous pénalise si vous n’avez pas ce fichier, avec l’annotation : « robots.txt – file not found ».

 

Note importante : les liens attribués par « follow » ou « nofollow » seront répertoriés et visités sans distinction s’il n’existe pas de fichier robot.txt au sein du serveur.

 

Les instructions HTTP X-Robots-Tag

 

Instruction X-Robot

Indiquez aux robots de ne pas indexer cette page tout en lui donnant l’accès au contenu.

Instruction X-Robot

Vous pouvez combiner plusieurs instructions.

 

Note : si l’attribut : index y est stipulé, l’intégralité du contenu ainsi que les images seront indexées.

 

Les balises Meta

Comme pour le « X-Robots-Tag », ces balises Meta donnent l’ordre aux robots de parcourir et d’indexer ou non votre page.

 

Balises Meta Robots

Directives pour tous les User-Agent sans distinction.

Balises Meta Robots

Ne pas indexer les images présentes sur la page.

 

Depuis la Search Console, vous pouvez vous référer à la page d’erreur de crawl, c’est ici qu’est annotée la moindre erreur de crawl rencontré par Googlebot. Vous pourrez ainsi les corriger et aller de l’avant.

Sachez que la moindre erreur pénalise votre référencement naturel (SEO), donc votre visibilité. Bien qu’il soit impossible d’atteindre zéro erreur, Google recommande de lire ces rapports régulièrement. Par ailleurs leur support regorge d’informations, de conseils ou encore d’outils au sujet du “crawl”.

Googlebot est donc le point de départ de votre référencement naturel, il est ainsi avisé et productif de s’y intéresser pour une bonne stratégie SEO.