Robots.txt SEO : guide complet [2026]

Le fichier robots.txt est le tout premier fichier que les robots des moteurs de recherche consultent quand ils arrivent sur ton site. C’est un simple fichier texte place a la racine de ton domaine, mais il a un pouvoir considerable : il indique aux crawlers quelles pages explorer et lesquelles ignorer. Mal configure, il peut bloquer l’indexation de ton site entier. Bien optimise, il t’aide a maitriser ton budget de crawl et a guider Google vers tes contenus strategiques.

Dans ce guide, je t’explique comment fonctionne le robots.txt, sa syntaxe complete, des exemples concrets pour WordPress, Shopify et les sites custom, comment gerer les crawlers IA (GPTBot, ClaudeBot), et les erreurs les plus courantes a eviter absolument.

En resume :

Le robots.txt est un fichier texte place a la racine de ton site qui donne des instructions aux robots d’exploration des moteurs de recherche
Il permet d’optimiser ton budget de crawl en empechant les bots d’explorer les pages inutiles (admin, panier, pages filtrees)
La directive Disallow n’empeche pas l’indexation : pour bloquer une page des resultats Google, tu dois utiliser une balise meta noindex
En 2026, le robots.txt sert aussi a controler l’acces des crawlers IA comme GPTBot (OpenAI) et ClaudeBot (Anthropic)

Qu’est-ce que le fichier robots.txt

Le fichier robots.txt (pour “robots exclusion protocol”) est un fichier texte brut que tu places a la racine de ton site web. Son adresse est toujours la meme : https://tonsite.fr/robots.txt. Tu peux d’ailleurs consulter celui de n’importe quel site en ajoutant /robots.txt a la fin du nom de domaine.

Ce fichier contient des directives qui indiquent aux robots d’exploration (aussi appeles crawlers ou spiders) quels repertoires et quelles URL ils sont autorises a parcourir, et lesquels leur sont interdits. Google, Bing, Yahoo et tous les autres moteurs de recherche envoient leurs bots lire ce fichier avant de commencer a explorer ton site.

Le robots.txt existe depuis 1994. Il a ete cree comme un standard volontaire : les robots bien eleves le respectent, mais rien ne les y oblige techniquement. C’est une convention, pas une barriere de securite. Si tu veux vraiment empecher l’acces a une page, il faut utiliser une authentification par mot de passe ou un blocage cote serveur.

Un point important : le robots.txt est public. Tout le monde peut le lire. N’y mets donc jamais de chemins vers des repertoires sensibles que tu voudrais garder secrets, car cela revient a signaler leur existence a quiconque regarde le fichier.

Pourquoi robots.txt est important pour le SEO

Le robots.txt joue un role direct dans ta strategie de SEO technique. Voici pourquoi il merite toute ton attention.

Optimiser ton budget de crawl

Google alloue a chaque site un budget de crawl, c’est-a-dire un nombre limite de pages qu’il va explorer a chaque passage. Si tes crawlers passent leur temps sur des pages inutiles (resultats de recherche interne, pages de tri, archives de tags), ils auront moins de ressources pour decouvrir et indexer tes contenus strategiques. Le robots.txt te permet de rediriger cette energie vers les pages qui comptent vraiment.

Eviter l’indexation de contenus inutiles

Attention a une nuance essentielle : le Disallow dans le robots.txt empeche le crawl, pas l’indexation. Si Google trouve un lien vers une page que tu bloques via robots.txt, il peut quand meme l’indexer (avec un message “Cette page est bloquee par robots.txt”). Pour empecher l’indexation, tu dois utiliser une balise meta robots noindex. Mais bloquer le crawl reste utile pour eviter que Google gaspille des ressources sur du contenu sans valeur SEO.

Faciliter la decouverte de ton sitemap

Le robots.txt est l’endroit ideal pour declarer l’emplacement de ton sitemap XML. C’est la premiere chose que Googlebot lit en arrivant sur ton site, donc c’est le meilleur moyen de lui indiquer ou trouver la liste complete de tes URL. Cette directive est complementaire a la soumission dans Google Search Console.

Proteger les ressources serveur

Si ton site est heberge sur un serveur aux ressources limitees, un crawl agressif peut ralentir la navigation pour tes visiteurs reels. Le robots.txt te permet de limiter la frequence d’exploration et d’interdire certains chemins gourmands en ressources.

La syntaxe robots.txt expliquee

La syntaxe du fichier robots.txt est simple, mais chaque directive a un role precis. Voici le detail complet pour que tu puisses creer ou modifier ton fichier en toute confiance.

User-agent

La directive User-agent identifie le robot auquel tu t’adresses. Chaque bloc de regles commence par cette ligne. Tu peux cibler un crawler specifique ou tous les robots a la fois.

# Cibler tous les robots
User-agent: *

# Cibler uniquement Googlebot
User-agent: Googlebot

# Cibler le crawler d'images Google
User-agent: Googlebot-Image

Les noms de user-agents les plus courants sont : Googlebot (Google), Bingbot (Bing), Slurp (Yahoo), DuckDuckBot (DuckDuckGo), Yandex (Yandex). L’asterisque * s’applique a tous les robots qui ne sont pas cibles par un bloc specifique.

Disallow

La directive Disallow indique les chemins que le robot ne doit pas explorer. C’est la commande la plus utilisee dans un fichier robots.txt.

# Interdire un repertoire entier
Disallow: /admin/

# Interdire une page specifique
Disallow: /page-privee.html

# Interdire toutes les URL contenant un parametre
Disallow: /*?*

# Bloquer tout le site
Disallow: /

Quelques regles a retenir : le chemin est sensible a la casse (case sensitive). Disallow: /Admin/ et Disallow: /admin/ ne ciblent pas le meme repertoire. Une ligne Disallow: vide (sans chemin) signifie “tout est autorise”. Et Disallow: / bloque l’integralite du site.

Allow

La directive Allow permet de creer des exceptions a l’interieur d’un Disallow. Elle est surtout reconnue par Googlebot.

# Bloquer /private/ sauf une page specifique
User-agent: *
Disallow: /private/
Allow: /private/page-publique.html

L’ordre des directives n’a pas d’importance pour Google : c’est la directive la plus specifique (le chemin le plus long) qui l’emporte. Si tu as un Allow sur /private/page-publique.html et un Disallow sur /private/, Google autorisera l’acces a la page specifique car le chemin Allow est plus precis.

Sitemap

La directive Sitemap indique l’emplacement de ton fichier sitemap XML. Contrairement aux autres directives, elle n’est pas liee a un User-agent specifique : elle s’applique a tous les robots.

Sitemap: https://tonsite.fr/sitemap.xml
Sitemap: https://tonsite.fr/sitemap-news.xml

Tu peux declarer plusieurs sitemaps. L’URL doit etre absolue (avec le protocole https://). C’est un excellent reflexe d’ajouter cette ligne dans ton robots.txt, en complement de la soumission dans la Google Search Console pour ton indexation.

Crawl-delay

La directive Crawl-delay specifie un delai (en secondes) entre chaque requete du robot. Elle est reconnue par Bing et Yandex, mais ignoree par Google (qui gere la frequence de crawl via la Search Console).

User-agent: Bingbot
Crawl-delay: 10

User-agent: Yandex
Crawl-delay: 5

Si ton serveur est lent ou que tu constates des pics de charge lies au crawl, cette directive peut t’aider. Mais pour Google, il faut configurer la vitesse d’exploration directement dans Google Search Console, dans les parametres de la propriete.

Exemples de robots.txt pour differents CMS

Voici des exemples concrets de fichiers robots.txt optimises pour les plateformes les plus courantes. Tu peux les adapter a ton site en fonction de ta structure.

WordPress

WordPress genere un robots.txt par defaut assez basique. Voici une version optimisee pour le SEO :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /?s=
Disallow: /search/
Disallow: /author/
Disallow: /tag/
Disallow: /feed/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /wp-json/

Sitemap: https://tonsite.fr/sitemap_index.xml

Pourquoi ces regles ? Le repertoire /wp-admin/ est bloque sauf admin-ajax.php (necessaire pour le fonctionnement de nombreux themes et plugins). Les pages de recherche interne (/?s=), les archives d’auteurs et de tags sont bloquees car elles generent du contenu duplique. Les fichiers xmlrpc.php et wp-json n’ont pas de valeur SEO et consomment du budget de crawl inutilement.

Si tu utilises un plugin SEO comme Rank Math ou Yoast, tu peux modifier ton robots.txt directement depuis le tableau de bord WordPress sans acceder au serveur via FTP.

Shopify

Shopify genere automatiquement un robots.txt que tu peux personnaliser via le fichier robots.txt.liquid dans ton theme. Voici les directives essentielles :

User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkouts/
Disallow: /checkout
Disallow: /collections/*+*
Disallow: /collections/*%2B*
Disallow: /collections/*%2b*
Disallow: /*/collections/*sort_by*
Disallow: /blogs/*+*
Disallow: /blogs/*%2B*
Disallow: /blogs/*%2b*
Disallow: /*?*oseid=*
Disallow: /*preview_theme_id*
Disallow: /*preview_key*
Disallow: /search
Disallow: /apple-app-site-association

Sitemap: https://taboutique.fr/sitemap.xml

Les regles specifiques a Shopify ciblent les pages de panier, de checkout et les URL de filtrage par parametres (les operateurs + et sort_by dans les collections). Les previews de themes sont aussi bloquees pour eviter de polluer l’index de Google avec des versions brouillon de ta boutique.

Sites custom

Pour un site custom (HTML statique, React, Next.js, ou tout autre framework), tu dois creer le fichier robots.txt manuellement et le placer a la racine de ton serveur web.

User-agent: *
Disallow: /api/
Disallow: /tmp/
Disallow: /private/
Disallow: /assets/pdf/
Disallow: /*?utm_*
Disallow: /*?ref=*

Sitemap: https://tonsite.fr/sitemap.xml

Adapte ces regles a ta propre structure. Bloque les repertoires techniques (/api/, /tmp/), les dossiers prives, les ressources non destinees a l’indexation (PDF internes), et les URL avec parametres de tracking UTM. Verifie toujours que le fichier est bien accessible a l’adresse https://tonsite.fr/robots.txt apres le deploiement.

Robots.txt et les crawlers IA (GPTBot, ClaudeBot)

Depuis 2023, une nouvelle categorie de robots parcourt le web : les crawlers d’intelligence artificielle. OpenAI (GPTBot), Anthropic (ClaudeBot), Google (Google-Extended), Meta (FacebookExternalHit pour l’entrainement IA) et d’autres collectent des donnees pour entrainer leurs modeles de langage.

Le robots.txt est devenu l’outil principal pour controler l’acces de ces crawlers IA a ton contenu. Si tu ne veux pas que tes articles servent a entrainer des modeles de langage, tu peux les bloquer specifiquement :

# Bloquer les crawlers IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

# Autoriser les moteurs de recherche classiques
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

Quelques points importants a connaitre :

GPTBot est le crawler d’OpenAI utilise pour entrainer les modeles. ChatGPT-User est le bot qui parcourt le web quand un utilisateur demande a ChatGPT de rechercher une information en direct. Bloquer l’un ne bloque pas l’autre.
Google-Extended controle uniquement l’utilisation de ton contenu pour l’entrainement des modeles IA de Google (Gemini). Le bloquer n’affecte pas ton positionnement dans les resultats de recherche Google classiques.
Tous ces crawlers respectent officiellement le robots.txt. Mais comme pour les crawlers de recherche classiques, c’est une convention, pas une obligation legale. Certains crawlers IA moins scrupuleux ignorent ces directives.
La decision de bloquer ou non les crawlers IA est strategique. Si tu produis du contenu original de qualite et que tu veux proteger ta propriete intellectuelle, le blocage se justifie. Si tu veux maximiser ta visibilite et etre cite par les IA generatives dans leurs reponses, tu peux choisir de les autoriser.

Les erreurs robots.txt a eviter

Le robots.txt est un fichier simple, mais les consequences d’une mauvaise configuration peuvent etre desastreuses pour ton referencement. Voici les erreurs les plus courantes que je constate lors de mes audits techniques SEO.

Bloquer l’ensemble du site par erreur

C’est l’erreur la plus grave. Une simple ligne Disallow: / sous User-agent: * empeche tous les robots d’explorer ton site. Ca arrive souvent apres une mise en production quand le robots.txt de l’environnement de preprod (qui bloquait tout volontairement) est deploye tel quel sur le site live.

# NE FAIS JAMAIS CA en production
User-agent: *
Disallow: /

Confondre Disallow et noindex

Le Disallow empeche le crawl, pas l’indexation. Si tu veux qu’une page ne soit pas indexee par Google, tu dois utiliser une balise <meta name="robots" content="noindex"> dans le HTML de la page, ou un header HTTP X-Robots-Tag: noindex. Et attention au piege : si tu bloques une page via robots.txt ET que tu y mets un noindex, Google ne verra jamais le noindex car il ne pourra pas crawler la page.

Bloquer les fichiers CSS et JavaScript

En 2026, Google a besoin d’acceder a tes fichiers CSS et JS pour comprendre le rendu de tes pages (Googlebot execute le JavaScript). Si tu bloques /wp-content/themes/ ou les dossiers contenant tes styles et scripts, Google ne peut pas rendre correctement tes pages, ce qui nuit a ton positionnement.

Ne pas tester apres modification

Apres chaque modification de ton robots.txt, utilise l’outil de test de la Google Search Console ou un outil comme le testeur robots.txt de Merkle pour verifier que tes directives fonctionnent comme prevu. Teste specifiquement les URL strategiques de ton site pour t’assurer qu’elles ne sont pas bloquees accidentellement.

Utiliser robots.txt comme mesure de securite

Le robots.txt n’est pas un outil de securite. Il est lisible par tout le monde et les robots malveillants l’ignorent completement. Ne bloque jamais des pages sensibles (pages d’administration, donnees clients, documents confidentiels) uniquement via le robots.txt. Utilise une authentification ou un pare-feu pour les proteger reellement.

Oublier la directive Sitemap

Beaucoup de sites ont un robots.txt avec des regles Disallow mais oublient d’y ajouter la reference au sitemap XML. C’est une occasion manquee d’accelerer la decouverte et l’indexation Google de tes pages.

Placer le fichier au mauvais endroit

Le robots.txt doit imperativement se trouver a la racine du domaine. https://tonsite.fr/robots.txt fonctionne. https://tonsite.fr/dossier/robots.txt ne sera jamais lu par les crawlers. Si tu utilises des sous-domaines, chaque sous-domaine a besoin de son propre fichier robots.txt.

Le fichier robots.txt est un fichier texte simple mais crucial pour le SEO de ton site web. Place a la racine de ton site, ce fichier indique aux robots des moteurs de recherche comme Google (Googlebot) quelles pages et quels repertoires ils peuvent explorer et lesquels sont interdits (Disallow). Chaque site web a besoin d’un fichier robots.txt correctement configure pour optimiser son budget de crawl, empecher l’indexation de pages techniques (comme /wp-admin/) et guider les crawlers vers les contenus importants via la directive Sitemap. Une erreur dans ton fichier robots.txt peut bloquer l’exploration de pages entieres de ton site par les moteurs de recherche – c’est pourquoi il est essentiel de le tester regulierement dans la Google Search Console.

FAQ

Le robots.txt empeche-t-il Google d’indexer mes pages ?

Non. Le robots.txt empeche le crawl (l’exploration), pas l’indexation. Google peut indexer une URL bloquee par robots.txt s’il la trouve via des liens externes. Pour empecher l’indexation, utilise une balise meta noindex ou un header X-Robots-Tag.

Comment verifier si mon robots.txt fonctionne correctement ?

Tu peux tester ton fichier directement dans Google Search Console (section “Parametres” puis “robots.txt”). Il existe aussi des outils en ligne gratuits comme le testeur de Merkle ou celui de Ryte. Tape simplement tonsite.fr/robots.txt dans ton navigateur pour verifier qu’il est bien accessible.

Que se passe-t-il si je n’ai pas de fichier robots.txt ?

Si ton site n’a pas de fichier robots.txt (erreur 404 sur /robots.txt), les moteurs de recherche considerent que tout le site est ouvert a l’exploration. Ce n’est pas forcement un probleme, mais tu perds la possibilite d’optimiser ton budget de crawl et de declarer ton sitemap par ce biais.

Puis-je utiliser des wildcards dans le robots.txt ?

Oui. Google et Bing supportent deux caracteres speciaux : l’asterisque * (correspond a n’importe quelle sequence de caracteres) et le dollar $ (indique la fin de l’URL). Par exemple, Disallow: /*.pdf$ bloque tous les fichiers PDF. Attention, ces wildcards ne font pas partie du standard original et ne sont pas supportes par tous les robots.

Le robots.txt affecte-t-il le PageRank ?

Indirectement, oui. Si tu bloques des pages via robots.txt, les liens vers ces pages bloquees sont “perdus” : le PageRank qui leur est transmis n’est pas redistribue. Google ne peut pas suivre les liens a l’interieur d’une page qu’il ne peut pas crawler. Pour une gestion fine de la distribution du PageRank, le maillage interne et les balises noindex sont des outils plus adaptes.

A quelle frequence dois-je mettre a jour mon robots.txt ?

Mets-le a jour chaque fois que la structure de ton site change significativement : ajout d’un nouveau repertoire, changement de CMS, creation de nouvelles sections. Integre la verification du robots.txt dans ta routine d’audit technique SEO mensuelle. Et surtout, verifie-le systematiquement apres chaque mise en production.

Dois-je bloquer les crawlers IA dans mon robots.txt ?

Ca depend de ta strategie. Si tu veux proteger tes contenus originaux et empecher qu’ils servent a entrainer des modeles d’IA sans ton consentement, bloque GPTBot, ClaudeBot et les autres. Si tu veux maximiser ta visibilite dans les reponses generees par les IA (comme les AI Overviews de Google), tu peux choisir de les laisser passer. Il n’existe pas de reponse universelle : c’est un choix editorial et strategique.

Le fichier robots.txt est un element fondamental du SEO technique. Il ne prend que quelques minutes a configurer correctement, mais les consequences d’un robots.txt mal parametre peuvent prendre des mois a corriger. Si tu veux etre certain que ton robots.txt est optimise et que ton site est correctement configure pour les moteurs de recherche, demande ton audit SEO gratuit et je l’analyse pour toi.

Robots.txt : le guide complet pour le SEO [2026]

Qu’est-ce que le fichier robots.txt

Pourquoi robots.txt est important pour le SEO

Optimiser ton budget de crawl

Eviter l’indexation de contenus inutiles

Faciliter la decouverte de ton sitemap

Proteger les ressources serveur

La syntaxe robots.txt expliquee

User-agent

Disallow

Allow

Sitemap

Crawl-delay

Exemples de robots.txt pour differents CMS

WordPress

Shopify

Sites custom

Robots.txt et les crawlers IA (GPTBot, ClaudeBot)

Les erreurs robots.txt a eviter

Bloquer l’ensemble du site par erreur

Confondre Disallow et noindex

Bloquer les fichiers CSS et JavaScript

Ne pas tester apres modification

Utiliser robots.txt comme mesure de securite

Oublier la directive Sitemap

Placer le fichier au mauvais endroit

FAQ

Le robots.txt empeche-t-il Google d’indexer mes pages ?

Comment verifier si mon robots.txt fonctionne correctement ?

Que se passe-t-il si je n’ai pas de fichier robots.txt ?

Puis-je utiliser des wildcards dans le robots.txt ?

Le robots.txt affecte-t-il le PageRank ?

A quelle frequence dois-je mettre a jour mon robots.txt ?

Dois-je bloquer les crawlers IA dans mon robots.txt ?

Florian Chambolle

Qu’est-ce que le fichier robots.txt

Pourquoi robots.txt est important pour le SEO

Optimiser ton budget de crawl

Eviter l’indexation de contenus inutiles

Faciliter la decouverte de ton sitemap

Proteger les ressources serveur

La syntaxe robots.txt expliquee

User-agent

Disallow

Allow

Sitemap

Crawl-delay

Exemples de robots.txt pour differents CMS

WordPress

Shopify

Sites custom

Robots.txt et les crawlers IA (GPTBot, ClaudeBot)

Les erreurs robots.txt a eviter

Bloquer l’ensemble du site par erreur

Confondre Disallow et noindex

Bloquer les fichiers CSS et JavaScript

Ne pas tester apres modification

Utiliser robots.txt comme mesure de securite

Oublier la directive Sitemap

Placer le fichier au mauvais endroit

FAQ

Le robots.txt empeche-t-il Google d’indexer mes pages ?

Comment verifier si mon robots.txt fonctionne correctement ?

Que se passe-t-il si je n’ai pas de fichier robots.txt ?

Puis-je utiliser des wildcards dans le robots.txt ?

Le robots.txt affecte-t-il le PageRank ?

A quelle frequence dois-je mettre a jour mon robots.txt ?

Dois-je bloquer les crawlers IA dans mon robots.txt ?

Florian Chambolle

La lettre