Robots.txt
robots.txt est un fichier texte placé dans le répertoire racine d’un site web qui indique aux moteurs de recherche quelles pages ou fichiers ils sont autorisés ou interdits à demander. C’est la première ligne de défense pour contrôler comment les bots interagissent avec votre infrastructure de site et cela aide à optimiser le budget d’exploration.
Diriger les bots vers votre meilleur contenu
Google alloue un « budget de crawl » limité à votre site — le nombre de pages que ses bots parcourent par jour. Si les bots perdent du temps à explorer les panneaux d’administration, dupliquer les pages imprimables ou les URL de panier/paiement, ils pourraient manquer vos précieuses pages de produits traduits. robots.txt dit aux bots « Ne perdez pas de temps sur /admin/, concentrez-vous plutôt sur /en/, /fr/, /de/. » Pour les sites internationaux, vous devez interdire l’exploration des pages de redirection automatique de la langue, des points de terminaison API et de toute URL technique qui n’a pas besoin d’être indexée. Cependant, ne bloquez JAMAIS accidentellement vos annuaires linguistiques — c’est une erreur catastrophique qui tue tout SEO international.
Autoriser vs. interautoriser l’accès au crawl
Impact dans le monde réel
Le site n’a pas de robots.txt, les bots explorent 10 000 URL de cartouche
Budget de recherche gaspillé, pages produits ralenties
Les nouveaux produits mettent des semaines à apparaître dans les recherches
Ajouter robots.txt : Interpermettre /panier/, /checkout/, /API/
Les bots se concentrent à 100 % sur les pages produits et langues
Nouveaux produits indexés dans les 24 heures