Qu’est-ce que le Google bot et comment fonctionne-t’il ?

Le 15 avril 2019  SEO

En facilitant la compréhension et l’accès de votre site par Googlebot, cela permet d’optimiser in fine la stratégie SEO de votre site et donc améliorer le référencement de vos pages sur vos mots-clés ciblés. Qu’est-ce que Googlebot ? Googlebot va explorer un site, les pages qui le composent à travers les liens qui y sont présents pour récolter un maximum de […]

En facilitant la compréhension et l’accès de votre site par Googlebot, cela permet d’optimiser in fine la stratégie SEO de votre site et donc améliorer le référencement de vos pages sur vos mots-clés ciblés.

Qu’est-ce que Googlebot ?

Googlebot va explorer un site, les pages qui le composent à travers les liens qui y sont présents pour récolter un maximum de données et en avoir une description dès plus précise. Googlebot, tout comme les autres robots d’indexation, à tendance à rendre visite aux sites proposant du contenu original. Lorsqu’on ajoute du contenu “nouveau” sur un site cela permet d’attirer les robots plus fréquemment.

Voilà ce que Google dit au sujet de son robot, le Googlebot: “Le robot de Google n’a pas accès à un site Web plus d’une fois par seconde.”

Comment fonctionne Googlebot ?

Le contenu de chaque site et de chaque page web est analysé lors du crawl du robot de Google.

  1. Googlebot arrive sur un site internet : A son arrivée sur le site, le robot de Google va d’abord regarder la page web, en analysant son code source HTML. Il enregistre ce code source, et le fait parvenir à Google.
  2. Googlebot explore ensuite les liens présents sur les pages : Il va regarder tous les liens et les explorer, de la même manière qu’un internaute pourrait cliquer dessus.
  3. Googlebot arrive, à travers un lien, sur une nouvelle URL : de la même manière que précédemment, il va récupérer les codes HTML de cette pages et les faire parvenir à l’index de Google.
  4. Googlebot explore à nouveaux les liens de ces pages : il va une fois de plus regarder tous les liens présents, avant d’enregistrer les codes HTML de ces urls qu’il atteindra… et ainsi de suite.

A savoir qu’avant d’explorer un site, le Googlebot vérifie les règles présentent au niveau des fichiers Robots.txt. Celui-ci définit les pages et liens qu’il a le droit de crawler, ou pas et les liens à indexer dans son moteur de recherche. La directive User-agent présent dans le robots.txt aide à définir les règles d’accès pour les robots (ex: Balise meta-robots : AllowDisallow)

Il est important d’expliquer également qu’il ne faut pas bloquer à Googlebot l’accès aux fichiers JS et CSS, car cela l’empêche de bien comprendre les pages web.

Googlebot, le robot de Google, passe son temps à explorer des URL’s. Il n’explore pas en une seule fois les pages d’un site web. Il vient, et revient sur un site et essaie à chacune de ces visites d’explorer au mieux les urls d’un site web en fonction de différents critères :

  • La taille d’un site : plus un site aura de pages plus celui-ci sera crawlé fréquemment
  • La profondeur d’un site : plus il y a de clics pour atteindre une page depuis l’accueil, plus le crawl est aléatoire.
  • La fréquence de mise à jour : un site web mis à jour régulièrement sera plus souvent crawlé qu’un site où les mises à jour sont plus espacées.
  • La qualité d’un contenu : Un site proposant du contenu de bonne qualité sera mieux crawlé qu’un site proposant un contenu basique.

La notion de budget crawl renvoie au nombre total de pages que Google va explorer sur un site. Le crawl budget est le « temps machine » que Google va décider d’accorder à l’exploration d’un site web.

La fréquence de passage du robot Google

La fréquence de passage des robots de Google sur un site web est très variable. Cela peut aller de quelques minutes à quelques jours.

En fait Googlebot adapte la fréquence de ses visites en fonction de la fraîcheur de l’information. En effet, tout dépend de votre contenu et de la fréquence à laquelle vous publiez de nouvelles informations sur votre site. Plus les mises à jour sont régulières, plus le site sera considéré comme dynamique et, donc, valorisé auprès de Google.

Via la Search Console, dans la section « Couverture » il est possible, pour les webmasters, d’avoir toutes les informations sur les URLs souhaités. Sa présence dans le sitemap mais aussi la date de sa dernière exploration par les robots de Google.

L’avantage du Googlebot, c’est que les serveurs de Google sont en relation avec le serveur sur lequel est hébergé votre site. Le serveur a donc un historique des traces laissées par le Googlebot (via les fichiers de log HTTP).

A l’aide d’outils SEO tels que Botify, Oncrawl ou Deepcrawl, permettent de réaliser des analyses de logs. Les résultats du passage de Googlebot peuvent donc être intéressant à analyser afin d’améliorer son SEO.

Comment faire passer le robot Google sur son site ?

Lorsque vous créer de nouvelles pages sur votre site, vous souhaitez pouvoir les voir rapidement indexées dans les SERPS de Google.

Pour cela différentes méthodes peuvent accélérer cette indexation mais seul Google est maître de quand il décide d’indexer une nouvelle page.

Le fichier sitemap.XML permet de faciliter l’accès aux robots des moteurs de recherche aux pages de votre site. Mais ce n’est parce que les robots explorent vos pages qu’ils les indexent plus vite. Ce fichier est principalement important pour les gros sites internet comprenant plusieurs milliers d’urls qui ne sont pas toujours bien reliées entre elles.

Avec Google Search Console il faut savoir que l’exploration ne s’effectue pas plus rapidement lorsque vous demandez une réexploration pour une même URL.

Comment optimiser l’exploration d’un site par le Googlebot ?

Il existe différentes méthodes afin de favoriser le passage de Googlebot sur un site.

  • L’optimisation du robots.txt est importante dans le sens où ce fichier est une directive pour les robots des moteurs de recherche. Il permet de décider et dire au Googlebot les pages qu’il doit explorer ou non. Cela permet de lui indiquer les pages les plus importantes d’un site.
  • La fréquence du robot de Google dépend des mises à jour des différentes pages présentes sur le site. Il calque sa fréquence de crawl sur la fréquence de mise à jour des pages d’un site. Il faut donc régulièrement enrichir son site avec du contenu unique et qualitatif.
  • De plus, si vous copier le contenu déjà présent sur une autre page de votre site, les robots de Google ne vont pas chercher à revenir sur un site où les pages sont similaires. Il est donc important que les pages d’un site aient un contenu unique.
  • Autre point important dans l’optimisation de l’exploration d’un site par le Googlebot : Une arborescence simple. En effet, plus la structure est claire, plus Googlebot va loin et indexe le contenu lié. Effectivement, Google ne peut pas tout crawler. C’est pourquoi avoir un site bien construit intégrant également un bon maillage interne facilitera l’exploration et l’indexation des pages d’un site.
  • Un sitemap.XML est une liste au format XML qui répertorie l’ensemble des pages d’un site web. Un sitemap XML permet de structurer un site web et par conséquent il permet également aux robots des moteurs de recherche de comprendre comment est structuré un site.

A savoir que depuis novembre 2018 l’index mobile-first est en place. Il a pour but de classer les sites web en fonction de la manière dont Google a crawlé la version mobile plutôt que la version desktop.

La compréhension du fonctionnement du Googlebot est donc le point de départ pour améliorer son référencement naturel, il est donc important de s’y intéresser pour pouvoir mettre en place une bonne stratégie SEO et avoir une stratégie de marketing digital efficace