Glossar

Was ist ein CAPTCHA?

Ein CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) ist ein Challenge-Response-System, das Websites einsetzen, um menschliche Besucher von automatisierten Bots zu unterscheiden - in der Regel, indem der Besucher ein Rätsel lösen muss, das für Menschen einfach, für Software jedoch schwierig ist.

Verstehe, wie CAPTCHAs funktionieren, warum sie erscheinen, welche modernen Varianten es gibt (Bild, Audio, unsichtbar, verhaltensbasiert) und wie du sie beim Scraping vermeidest.

Erklärt

Ein CAPTCHA ist die Bot-Erkennungs-Challenge, die Sie sehen, wenn eine Website vermutet, dass Ihr Traffic automatisiert sein könnte. Die klassische Form ist ein verzerrtes Textbild, das Sie lesen müssen; moderne Formen sind Bildgitter-Rätsel ('Wählen Sie alle Felder mit Ampeln aus'), Audio-Challenges und verhaltensbasierte/unsichtbare CAPTCHAs, die beobachten, wie Sie mit der Seite interagieren, und Sie still als Mensch oder Bot bewerten, bevor Sie überhaupt wissen, dass eine Prüfung stattfindet.

Die wichtigsten CAPTCHA-Anbieter heute sind Google reCAPTCHA (v2, v3 und die Enterprise-Stufe) und hCaptcha, beide weit verbreitet hinter Anti-Bot-Stacks wie Cloudflare und Akamai. Cloudflare betreibt auch seine eigene Turnstile-Challenge als reCAPTCHA/hCaptcha-Alternative. Jedes System verwendet eine andere Mischung aus Bildrätseln, Browser-Fingerprinting, Maus-/Tastatur-Bewegungsanalyse und IP-Reputation, um einen 'Menschlichkeits-Wahrscheinlichkeits'-Score zu berechnen.

Für Scraping- und Datenerfassungs-Workflows ist die richtige Antwort auf eine CAPTCHA-Challenge nicht, sie zu lösen -- sondern zu vermeiden, sie überhaupt auszulösen. CAPTCHAs werden ausgelöst, wenn die Anfrage verdächtig aussieht (Datacenter-IP, fehlende Header, nicht übereinstimmender Fingerabdruck, stoßweises Timing), daher ist die sauberste Lösung Hygiene: Residential-/Mobile-IPs, moderne Browser-Header, realistisches Timing und korrekte TLS-Fingerabdrücke. Wenn ein CAPTCHA erscheint, führt das Rotieren zu einer frischen IP in der Regel zu einem sauberen Pfad.

So funktioniert es

Wenn eine Anfrage eintrifft, berechnet die Website (oder ihr Anti-Bot-Anbieter) einen Risiko-Score anhand von Signalen wie: Quell-IP-Reputation (Datacenter? Jüngster Missbrauch? Land?), Browser-Fingerabdruck (User-Agent, sec-ch-ua, Bildschirmgröße, Plugins), TLS-Handshake-Fingerabdruck (JA3/JA4), Verhaltens-Signale (Mausbewegung, Tastentiming, auf der Seite verbrachte Zeit) und historische Reputation von Cookies/Tokens.

Wenn der Score unter dem Mensch-Vertrauens-Schwellenwert liegt, fügt das System eine CAPTCHA-Challenge in die Antwort ein. Die Challenge erfordert, dass der Client eine Aufgabe ausführt (Text lesen, passende Bilder anklicken, eine unsichtbare Verhaltens-Prüfung bestehen) und ein Token an den Server zurücksendet. Ohne ein gültiges Token lehnt der Server nachfolgende Anfragen ab.

Typen

Textbasiertes CAPTCHA

Verzerrte Textbilder, die der Nutzer lesen und eintippen muss. Die klassische Form, heute größtenteils nicht mehr im Einsatz, da OCR und ML sie lösen können.

Bild-Raster-CAPTCHA (reCAPTCHA v2)

'Wähle alle Felder aus, die Ampeln / Zebrastreifen / Hydranten enthalten.' Häufig als Fallback verwendet, wenn das unsichtbare reCAPTCHA die Anfrage markiert.

Unsichtbares / Verhaltensbasiertes CAPTCHA (reCAPTCHA v3, Turnstile)

In den meisten Fällen ist keine Nutzerinteraktion erforderlich. Das System erstellt passiv einen Fingerprint der Seite und des Besuchers und gibt einen Score zurück (0.0 = Bot, 1.0 = Mensch). Die Website legt fest, welchen Schwellenwert sie durchsetzt.

Audio-CAPTCHA

Challenges mit gesprochenen Ziffern oder Wörtern, hauptsächlich als Barrierefreiheits-Fallback für visuelle CAPTCHAs.

hCaptcha

Eine Alternative zu reCAPTCHA, die von Cloudflare und vielen datenschutzorientierten Websites verwendet wird. Funktional ähnlich - Bild-Raster-Challenges und Verhaltenssignale - mit unterschiedlicher Richtlinie und Wirtschaftlichkeit.

Häufige Anwendungsfälle

Formular-Spam-Schutz bei Anmelde- und Kontaktformularen
Login-Drosselung gegen Credential Stuffing
Kommentar- und Foren-Bot-Abwehr
Buchungs-Bot-Abwehr (Tickets, Sneaker, Reservierungen)
Scraper-Abschreckung bei geschützten APIs und Seiten
FAQ

Häufig gefragt FAQ-Fragen

Häufige Fragen zu captcha.

Dein Traffic löst ein Signal aus, das nach einem Bot aussieht. Die häufigsten Ursachen: Rechenzentrum-IPs (sofort markiert), fehlende oder nicht übereinstimmende Browser-Header, keine JavaScript-Engine, obwohl die Seite eine erwartet, stoßweises Anfrage-Pacing von derselben IP oder veraltete TLS-Fingerprints. Wechsle zu Residential-Proxys, sende moderne Header und drossele deine Anfragen.