Comment Google gère-t-il un robots.txt indisponible ?

Google devient plus tolérant face à un robots.txt indisponible. Dans sa documentation de la Search Console relative aux Statistiques sur l’exploration, Google précise son comportement sur le robots.txt dans les cas où celui-ci n’est pas accessible.

🤖De base, quand Google crawle un site, donc quand il demande une URL au serveur, il se réfère aux consignes du robots.txt. Il l’interroge directement ou bien il se réfère à sa version en mémoire (dernières 24h)

🤷Si l’URL du robots.txt répond en HTTP 403/404/410, Google considère qu’il n’y a pas de fichier, et donc aucune consigne de crawl. Il a donc les mains libres pour explorer tout le site (ses parties accessibles par des liens).

🚫Il y a 2 cas où Google ne pouvait pas crawler un site à cause d’un robot.txt défaillant :

  • HTTP 429 – trop de demandes au serveur de la part d’une adresse IP
  • HTTP 500/502/503 – erreur serveur / site en maintenance

Dans ces 2 cas la réponse HTTP indique à Google que le site n’est pas disponible pour être exploré, il est donc logique qu’il ne le fasse pas. Toutes les pages du site répondront en toute logique de manière identique.

Bref, seul ces deux cas étaient bloquants pour Google quant à l’exploration d’un site.

Changement du comportement de Googlebot fin juin 2022

Dans ces deux cas de HTTP 429 ou 500, Google procède en trois périodes de temps :

  • Dans les 12 premières heures : Google ne crawle pas le site
  • Après 12h Google se sert du robots en mémoire pour crawler le site, donc l’erreur n’est pas bloquante, et ceci pendant 30 jour. Pendant ce délai, Google continue à interroger le robots.txt pour en obtenir une version à jour.
  • Après 30 jours, Google considère que le robots.txt est inexistant donc crawle sans consignes, donc sans contraintes, en vérifiant que le site soit bien en ligne en vérifiant sa page d’accueil.

📑Version courte: un robots.txt en 404 n’a jamais été bloquant, et les échecs de réponse auparavant bloquants pour Google ne le sont plus

Mention à Brodie Clark qui a repéré le changement :

Pour marque-pages : Permaliens.

Les commentaires sont fermés