Fichier robots.txt : comment l’optimiser d’un point de vue SEO ?

Le 27 décembre 2019  SEO

Le référencement naturel utilise un ensemble de techniques et d’outils pour aider à améliorer la visibilité d’un site dans les résultats des moteurs de recherche et pouvoir optimiser l’indexation des pages. Le référencement On-Site est donc primordial afin de travailler sur la configuration du sitemap.xml, la configuration du robots.txt, etc. Le fichier robots.txt c’est quoi […]

Le référencement naturel utilise un ensemble de techniques et d’outils pour aider à améliorer la visibilité d’un site dans les résultats des moteurs de recherche et pouvoir optimiser l’indexation des pages.

Le référencement On-Site est donc primordial afin de travailler sur la configuration du sitemap.xml, la configuration du robots.txt, etc.

Le fichier robots.txt c’est quoi ?

Le robots.txt est un fichier texte placé à la racine d’un site web. Il permet de spécifier aux robots des moteurs de recherche des directives par rapport aux pages ou sections d’un site web qu’ils doivent parcourir ou non et ainsi pouvoir interdire l’accès à certains répertoires.

Le fichier robots.txt utilise différentes instructions :

User-agent : les user-agents correspondent aux robots des moteurs de recherche, par exemple Googlebot pour Google ou Bingbot pour Bing.

Disallow : disallow est l’instruction qui interdit aux user-agents l’accès à une url ou à un dossier.

Allow : allow est une instruction qui permet d’indiquer aux robots comme Googlebot, les urls qui doit aller explorer.

 

Qu’est-ce que les wildcards ?

Les wildcards sont des petits marqueurs qui sont utilisés pour donner des instructions récurrentes à suivre. Pour le robots.txt cela permet notamment de restreindre l’accès à certaines URLs. Ils sont compris par l’ensemble des robots des moteurs de recherche.

Exemple :

Disallow: /*?  Pour tous les robots des moteurs de recherche, l’instruction donnée est de ne pas récupérer les urls contenant le signe “?”.

Pourquoi créer un fichier robots.txt ?

Mettre en place un robots.txt est utile au référencement naturel d’un site internet ! Avoir un robots.txt optimisé et configuré sur un site web c’est mettre toutes les chances de son côté pour avoir un site optimisé pour le SEO et compris par les robots d’indexation des moteurs de recherche.

Pour Google la facilité de crawl d’un site n’est pas un critère de pertinence pour le classement d’un site dans les SERPS. On constate tout de même qu’un site facilement crawlable par les robots de Google a plus de chance d’avoir ses pages les plus importantes de crawlées; avec comme exemple les pages catégories ou produits pour un site e-commerce.

 

Les balises meta robots

En complément du robots.txt, il peut exister sur les pages une balise meta robots trouvable dans le code source. Cette balise permet d’instruire quels types de contenu les moteurs de recherche doivent indexer et afficher dans leurs SERP.

Il faut cependant faire attention à ne pas confondre le fichier robots et les metas robots.

Comment créer un fichier robots.txt optimisé en SEO ?

Pour commencer, créez votre fichier robots.txt avec le bloc-notes de votre ordinateur ou le logiciel notepad++ par exemple. Il faut faire au plus simple pour éviter au maximum les erreurs.

À savoir que le fichier doit être d’une taille inférieure à 62 Ko.

Une fois le robots.txt créé, ajoutez le fichier à la racine de votre site et non dans un sous-répertoire. Sinon, les moteurs de recherche ne pourront pas le prendre en compte.

Les commentaires sont autorisés (la ligne doit commencer par #) mais ils sont totalement ignorés par les robots des moteurs de recherche. Ils peuvent être utilisés lorsqu’un fichier robots.txt est assez long et complexe.

Le contenu du fichier robots.txt

Exemple de contenu présent dans un fichier robots.txt :

Exemple 1 :

User-agent: *

Disallow:

L’instruction User-agent: * signifie que les instructions suivantes s’appliquent à tous les robots.

L’instruction Disallow: signifie que les robots des moteurs de recherche peuvent parcourir l’ensemble des répertoires et des pages du site sans exception.

 

Exemple 2 :

User-agent: *

Disallow: /

Disallow: / la présence unique du slash, signifie que les robots des moteurs ne doivent pas aller explorer l’ensemble des répertoires et des pages du site. Cela peut être utile pour un environnement de pré-production.

 

Exemple 3 :

User-agent: *

Disallow: /admin-a/

Disallow: /admin-b/

Ici les directives indiquent que l’on souhaite bloquer uniquement certains répertoires du site, qui ne sont pas pertinents ni pour les robots, ni pour les internautes.

Le robots.txt doit être placé à la racine du site internet, ce qui est notamment possible avec un FTP. Sous WordPress, un fichier robots.txt virtuel est créé de base.

Mettre en place le fichier robots.txt avec le plugin Yoast SEO

Si vous utiliser le fameux plugin Yoast SEO, sachez que vous pourrez aussi éditer et modifier le robots.txt via l’interface. Pour cela il suffit d’aller dans SEO > Outils puis de cliquer sur Editeur de fichiers. Dans cette partie, il est également possible de modifier le fichier sitemap et le fichier .htaccess, pour mettre en place une redirection 301 par exemple.

Il est également important d’insérer le lien du sitemap.xml dans le robots.txt. Il permet aux robots d’indexation des moteurs de recherche d’explorer chaque page d’un site de manière plus intelligente.

Avec le fichier sitemap, vous pouvez instaurer les fréquences de mises à jour ou encore l’importance relative d’une page par rapport aux autres.

Les générateurs et outils de test du fichier robots.txt

Pour créer un fichier robots.txt, il est possible de créer le fichier manuellement ou bien, pour aider les webmasters, il est possible d’utiliser un outil qui le génère automatiquement :

  • Robots.txt Generator : simple et facile d’utilisation, cet outil générateur de robots.txt permet d’autoriser ou de bloquer certaines pages de votre site web à crawler par les bots.
  • L’autre outil de test est celui de Google Webmaster Tools qui permet de tester le robots.txt d’un site via la Google Search Console. Ce test de robots.txt vous permet de :
      • détecter les erreurs et tous les problèmes existants ;
    • vérifier les erreurs et faire les corrections nécessaires pour ensuite mettre en place le nouveau fichier ;
    • examiner si vous avez bien bloqué les pages que vous ne souhaitiez pas indexer.

Le fichier robots.txt est un outil intéressant pour votre SEO On-site. Ce fichier permet d’indiquer aux robots des moteurs de recherche ce qu’ils doivent aller explorer, et ce qu’ils de doivent pas aller explorer.

Ce fichier doit être néanmoins manipulé avec précaution, pour éviter d’indexer certaines pages web ou d’en exclure certaines qu’il ne faudrait pas.

 

Rédigé par Vincent F.