Expliqué
robots.txt est une convention qui remonte à 1994 : un fichier texte brut à la racine d'un domaine qui liste les agents utilisateurs (crawlers) autorisés ou interdits d'accès à certains chemins d'URL. Les moteurs de recherche (Google, Bing) et les crawlers bien configurés le respectent. Le fichier est lisible publiquement — vous pouvez récupérer le robots.txt de n'importe quel site directement (`curl https://example.com/robots.txt`) et lire ce que le propriétaire du site souhaite que les crawlers fassent.
Le protocole d'exclusion des robots est purement indicatif. Le serveur web n'applique pas les directives de robots.txt — il se contente de les publier. Un crawler mal configuré peut ignorer robots.txt et le site servira quand même les URL demandées. L'application provient de la politique des moteurs de recherche (Googlebot n'indexera pas les pages interdites dans robots.txt) et des conséquences juridiques ou de réputation lorsque des scrapers commerciaux ignorent l'intention explicite du propriétaire.
Pour le scraping commercial, robots.txt est important de deux façons. Sur le plan juridique, ignorer une directive `Disallow` explicite peut être cité comme preuve d'un accès de mauvaise foi dans les affaires relevant du CFAA ou des lois sur la cybercriminalité (notamment aux États-Unis après la décision hiQ v LinkedIn). Sur le plan opérationnel, les sites qui interdisent des chemins spécifiques disposent souvent d'une protection anti-bot plus robuste sur ces chemins — `Disallow: /search` signifie généralement que le scraping de `/search` déclenchera des défenses plus importantes que le scraping du reste du site.
Comment ça fonctionne
Lorsqu'un crawler démarre sur un domaine, il récupère d'abord `/robots.txt` et analyse les directives. Le fichier utilise une grammaire simple : les blocs `User-agent:
Le crawler vérifie ensuite chaque URL qu'il envisage de récupérer par rapport aux règles et ignore les chemins interdits. Certains crawlers mettent en cache robots.txt pendant 24 heures ; les crawlers de production matures l'actualisent plus fréquemment pour détecter les modifications.