Glossar

Was ist robots.txt?

robots.txt ist eine Klartextdatei im Stammverzeichnis einer Website (z. B. example.com/robots.txt), die Web-Crawlern mitteilt, auf welche URLs der Seiteninhaber möchte, dass sie zugreifen oder nicht zugreifen, gemäß dem Robots Exclusion Protocol.

Verstehen Sie das Robots Exclusion Protocol, was robots.txt tatsächlich durchsetzt (und was nicht), und wie Scraper es aus rechtlichen und betrieblichen Gründen behandeln sollten.

Erklärt

robots.txt ist eine Konvention aus dem Jahr 1994: eine Nur-Text-Datei im Stammverzeichnis einer Domain, die auflistet, welchen User-Agents (Crawlern) der Zugriff auf welche URL-Pfade erlaubt oder verboten ist. Suchmaschinen (Google, Bing) und regelkonforme Crawler respektieren sie. Die Datei ist öffentlich lesbar -- Sie können die robots.txt einer beliebigen Website direkt abrufen (`curl https://example.com/robots.txt`) und nachlesen, was der Website-Betreiber von Crawlern erwartet.

Das Robots Exclusion Protocol ist rein empfehlend. Der Webserver setzt robots.txt-Direktiven nicht technisch durch -- er veröffentlicht sie lediglich. Ein nicht regelkonformer Crawler kann robots.txt ignorieren, und die Website liefert die angeforderten URLs trotzdem aus. Die Durchsetzung erfolgt durch die Richtlinien der Suchmaschinen (Googlebot indiziert keine Seiten, die in robots.txt als nicht erlaubt gekennzeichnet sind) sowie durch rechtliche und reputationsbezogene Konsequenzen, wenn kommerzielle Scraper die ausdrückliche Absicht des Betreibers missachten.

Für kommerzielles Scraping ist robots.txt auf zwei Arten relevant. Rechtlich kann das Ignorieren einer ausdrücklichen `Disallow`-Direktive als Beleg für einen bösgläubigen Zugriff in CFAA- bzw. Computer-Missbrauchsfällen angeführt werden (insbesondere in den USA nach dem Urteil im Fall hiQ v LinkedIn). Operativ verfügen Websites, die bestimmte Pfade sperren, auf diesen Pfaden häufig über stärkeren Anti-Bot-Schutz -- `Disallow: /search` bedeutet in der Regel, dass das Scraping von `/search` stärkere Abwehrmechanismen auslöst als das Scraping des restlichen Teils der Website.

So funktioniert es

Wenn ein Crawler eine Domain aufruft, ruft er zuerst `/robots.txt` ab und analysiert die Direktiven. Die Datei verwendet eine einfache Grammatik: `User-agent: `-Blöcke geben an, für welchen Crawler die folgenden Regeln gelten (`*` für alle), `Disallow: ` sperrt bestimmte URL-Präfixe, `Allow: ` erlaubt Pfade innerhalb eines gesperrten Präfixes erneut, und optionale `Crawl-delay: `- und `Sitemap: `-Direktiven liefern Metadaten.

Der Crawler prüft dann jede URL, die er abrufen möchte, anhand der Regeln und überspringt gesperrte Pfade. Einige Crawler cachen robots.txt für 24 Stunden; ausgereifte Produktions-Crawler aktualisieren häufiger, um Änderungen zu erfassen.

Typen

Disallow

Weist Crawler an, keine URLs abzurufen, die dem Präfix entsprechen. `Disallow: /admin/` schließt alles unter /admin/ aus. Die häufigste Direktive.

Allow

Erlaubt bestimmte Pfade innerhalb eines gesperrten Präfixes erneut. `Disallow: /private/` + `Allow: /private/public-data/` schließt /private/ aus, erlaubt aber /private/public-data/.

User-agent

Zielt auf bestimmte Crawler ab. `User-agent: Googlebot` wendet die folgenden Regeln nur auf Googles Crawler an. `User-agent: *` gilt als Fallback für alle Crawler.

Crawl-delay

Empfiehlt eine Mindestverzögerung (in Sekunden) zwischen Anfragen. Wird von Bing und Yandex berücksichtigt; Google ignoriert sie (verwenden Sie stattdessen die Crawl-Rate-Einstellung in der Search Console).

Sitemap

Verweist auf die XML-Sitemap(s) der Website. `Sitemap: https://example.com/sitemap.xml`. Hilft Crawlern, alle URLs zu entdecken, die die Website indexiert haben möchte.

Häufige Anwendungsfälle

Suchmaschinen mitteilen, welche Seiten nicht indiziert werden sollen
Verhindern, dass Crawler teure Endpunkte überlasten
Crawler auf die kanonische Sitemap hinweisen
Admin- und private Pfade von der öffentlichen Indizierung ausschließen
Crawl-Delay für kooperative Crawler festlegen
Seitenweite Crawler-Richtlinie dokumentieren
FAQ

Häufig gefragt FAQ-Fragen

Häufige Fragen zu robots.txt.

Nicht von sich aus. robots.txt ist beratend - der Server setzt sie nicht durch, und ein nicht kooperierender Crawler kann sie ignorieren. Gerichte (insbesondere in den USA unter dem CFAA) haben jedoch explizite Disallow-Direktiven als Beweis für die Absicht des Seitenbetreibers angeführt, was die Argumente von Scrapern in Fällen von Computermissbrauch schwächt. Behandeln Sie sie als rechtliche Untergrenze für konformes Scraping.