Google devient plus tolérant face à un robots.txt indisponible. Dans sa documentation de la Search Console relative aux Statistiques sur l’exploration, Google précise son comportement sur le robots.txt dans les cas où celui-ci n’est pas accessible.
🤖De base, quand Google crawle un site, donc quand il demande une URL au serveur, il se réfère aux consignes du robots.txt. Il l’interroge directement ou bien il se réfère à sa version en mémoire (dernières 24h)
🤷Si l’URL du robots.txt répond en HTTP 403/404/410, Google considère qu’il n’y a pas de fichier, et donc aucune consigne de crawl. Il a donc les mains libres pour explorer tout le site (ses parties accessibles par des liens).
🚫Il y a 2 cas où Google ne pouvait pas crawler un site à cause d’un robot.txt défaillant :
- HTTP 429 – trop de demandes au serveur de la part d’une adresse IP
- HTTP 500/502/503 – erreur serveur / site en maintenance
Dans ces 2 cas la réponse HTTP indique à Google que le site n’est pas disponible pour être exploré, il est donc logique qu’il ne le fasse pas. Toutes les pages du site répondront en toute logique de manière identique.
Bref, seul ces deux cas étaient bloquants pour Google quant à l’exploration d’un site.
Changement du comportement de Googlebot fin juin 2022
Dans ces deux cas de HTTP 429 ou 500, Google procède en trois périodes de temps :
- Dans les 12 premières heures : Google ne crawle pas le site
- Après 12h Google se sert du robots en mémoire pour crawler le site, donc l’erreur n’est pas bloquante, et ceci pendant 30 jour. Pendant ce délai, Google continue à interroger le robots.txt pour en obtenir une version à jour.
- Après 30 jours, Google considère que le robots.txt est inexistant donc crawle sans consignes, donc sans contraintes, en vérifiant que le site soit bien en ligne en vérifiant sa page d’accueil.
📑Version courte: un robots.txt en 404 n’a jamais été bloquant, et les échecs de réponse auparavant bloquants pour Google ne le sont plus
Mention à Brodie Clark qui a repéré le changement :
Heads-up: Google just added some interesting clarifications to their Crawl Stats Report doc.
— Brodie Clark (@brodieseo) June 22, 2022
Some changes include:
• Note about robots.txt 404ing (can crawl any URL)
• Using a 12hr – 30 day timeframe for fetching
• Details about homepage usage
See: https://t.co/OotSGApcNR pic.twitter.com/cGtzVbwHNn