Explicado
robots.txt es una convención que data de 1994: un archivo de texto plano en la raíz de un dominio que lista qué agentes de usuario (rastreadores) tienen permitido o prohibido acceder a qué rutas de URL. Los motores de búsqueda (Google, Bing) y los rastreadores bien configurados lo respetan. El archivo es de lectura pública: puedes obtener el robots.txt de cualquier sitio directamente (`curl https://example.com/robots.txt`) y leer lo que el propietario del sitio quiere que hagan los rastreadores.
El Protocolo de Exclusión de Robots es puramente orientativo. El servidor web no aplica las directivas de robots.txt, simplemente las publica. Un rastreador mal configurado puede ignorar robots.txt y el sitio servirá las URLs solicitadas de todas formas. La aplicación proviene de la política de los motores de búsqueda (Googlebot no indexará páginas desautorizadas en robots.txt) y de las consecuencias legales y reputacionales cuando los scrapers comerciales ignoran la intención explícita del propietario.
Para el scraping comercial, robots.txt importa de dos maneras. Legalmente, ignorar una directiva `Disallow` explícita puede citarse como evidencia de acceso de mala fe en casos de CFAA o uso indebido de equipos informáticos (especialmente en EE. UU. tras el fallo hiQ v LinkedIn). Operativamente, los sitios que prohíben rutas específicas suelen tener una protección antirrobot más fuerte en esas rutas: `Disallow: /search` generalmente significa que el scraping de `/search` activará defensas más intensas que el scraping del resto del sitio.
Cómo funciona
Cuando un rastreador comienza en un dominio, primero obtiene `/robots.txt` y analiza las directivas. El archivo utiliza una gramática sencilla: los bloques `User-agent:
El rastreador comprueba entonces cada URL que considera obtener con respecto a las reglas y omite las rutas no permitidas. Algunos rastreadores almacenan en caché robots.txt durante 24 horas; los rastreadores de producción maduros se actualizan con mayor frecuencia para detectar cambios.