Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte placé à la racine de votre site web (https://exemple.fr/robots.txt) qui contient des directives à destination des robots d'exploration (crawlers) des moteurs de recherche. Il est l'implémentation du Robots Exclusion Protocol (REP), une convention informelle définie dès 1994 et partiellement formalisée dans la RFC 9309 en 2022.

Le robots.txt est consulté par les robots avant d'explorer votre site. Googlebot, Bingbot et les autres crawlers de bonne foi respectent ces directives. Important : le robots.txt n'est pas un mécanisme de sécurité — il repose sur la coopération volontaire des robots. Les robots malveillants ignorent délibérément ces directives. Pour protéger des pages sensibles, utilisez l'authentification HTTP ou la balise meta noindex.

Structure du fichier robots.txt

Un fichier robots.txt est composé de blocs, chacun commençant par une directive User-agent suivie de directives Allow et Disallow :

User-agent: *
Disallow: /admin/
Disallow: /private/
Allow: /

Sitemap: https://exemple.fr/sitemap.xml

User-agent: * s'applique à tous les robots. Vous pouvez créer des blocs spécifiques pour des robots particuliers (Googlebot, Bingbot, AhrefsBot…). Le robot cherche d'abord une règle spécifique le concernant, et s'il n'en trouve pas, applique le bloc * générique.

Allow vs Disallow : les nuances

La directive Disallow empêche un robot d'explorer les URLs correspondant au chemin spécifié. La directive Allow autorise explicitement un chemin qui serait sinon bloqué par un Disallow plus général. La règle la plus spécifique prend la priorité sur la règle générale.

Exemples :

Disallow: / — bloque l'exploration de tout le site (attention !)
Disallow: /admin/ — bloque le répertoire admin et tout son contenu
Disallow: /*.pdf$ — bloque tous les fichiers PDF (pattern avec wildcard)
Allow: /public/ suivant Disallow: / — autorise uniquement /public/
Disallow: (vide) — autorise tout (équivalent à Allow: /)

Qu'est-ce que le Crawl Budget ?

Le crawl budget est le nombre de pages que Googlebot (ou tout autre robot) explore sur votre site dans un intervalle de temps donné. Il est déterminé par deux facteurs : la crawl rate limit (le débit que le robot peut demander à votre serveur sans le surcharger) et la crawl demand (la popularité et la fraîcheur perçue de vos pages).

Pour les sites de moins de quelques milliers de pages, le crawl budget n'est généralement pas une préoccupation. Pour les grands sites e-commerce (des millions de SKUs, URLs facettées, variantes produit), optimiser le crawl budget est crucial pour s'assurer que les pages importantes sont indexées rapidement.

Bloquer les URLs sans valeur SEO (pages de filtres, URLs avec paramètres de session, pages de pagination peu importantes) via robots.txt permet à Googlebot de concentrer ses visites sur le contenu réellement utile à indexer.

Crawl-delay : contrôler la cadence d'exploration

La directive Crawl-delay indique au robot d'attendre un certain nombre de secondes entre deux requêtes consécutives. Utile pour les serveurs à ressources limitées qui pourraient être surchargés par un robot trop agressif. Cependant, Google ne respecte pas Crawl-delay — pour contrôler la cadence de Googlebot, utilisez l'outil de débit de crawl dans Google Search Console.

Crawl-delay est respecté par Bingbot et certains autres robots. Pour les hébergements partagés avec des ressources limitées, une valeur de 5 à 10 secondes peut réduire l'impact des crawls sur les performances de votre site.

La directive Sitemap dans robots.txt

La directive Sitemap dans robots.txt est un moyen pratique d'indiquer à tous les robots l'emplacement de votre sitemap XML. Elle complète mais ne remplace pas la soumission du sitemap via Google Search Console ou Bing Webmaster Tools, qui offrent un suivi de l'indexation plus détaillé.

Un bon sitemap XML liste uniquement les pages canoniques que vous souhaitez voir indexées, avec leurs dates de dernière modification. Excluez les pages bloquées par robots.txt de votre sitemap — c'est contradictoire de signaler une page dans le sitemap tout en la bloquant dans robots.txt.

Erreurs courantes dans les fichiers robots.txt

Bloquer les ressources CSS et JavaScript : Google a besoin de pouvoir crawler les CSS et JS pour évaluer correctement le rendu de vos pages. Bloquer ces ressources peut nuire à votre indexation.
Bloquer des pages avec du contenu canonique : si une page est bloquée dans robots.txt, Google ne peut pas y accéder pour lire le tag canonical. Utilisez noindex dans le HTML plutôt que robots.txt pour désindexer une page tout en maintenant la résolution des canonicals.
Oublier les trailing slashes : Disallow: /admin et Disallow: /admin/ ne sont pas équivalents. Sans slash final, certains robots pourraient aussi bloquer /adminstration/.
Fichier robots.txt inaccessible : si votre robots.txt retourne un code 5xx, Googlebot bloquera tout le crawl de votre site par précaution.

Tester votre robots.txt

Google Search Console propose un outil de test du robots.txt intégré qui vous permet de vérifier si une URL spécifique serait bloquée pour Googlebot ou tout autre robot. C'est l'outil de référence pour valider votre configuration avant de la déployer en production.

Générateur robots.txt