Erklärt
Ein CAPTCHA ist die Bot-Erkennungs-Challenge, die Sie sehen, wenn eine Website vermutet, dass Ihr Traffic automatisiert sein könnte. Die klassische Form ist ein verzerrtes Textbild, das Sie lesen müssen; moderne Formen sind Bildgitter-Rätsel ('Wählen Sie alle Felder mit Ampeln aus'), Audio-Challenges und verhaltensbasierte/unsichtbare CAPTCHAs, die beobachten, wie Sie mit der Seite interagieren, und Sie still als Mensch oder Bot bewerten, bevor Sie überhaupt wissen, dass eine Prüfung stattfindet.
Die wichtigsten CAPTCHA-Anbieter heute sind Google reCAPTCHA (v2, v3 und die Enterprise-Stufe) und hCaptcha, beide weit verbreitet hinter Anti-Bot-Stacks wie Cloudflare und Akamai. Cloudflare betreibt auch seine eigene Turnstile-Challenge als reCAPTCHA/hCaptcha-Alternative. Jedes System verwendet eine andere Mischung aus Bildrätseln, Browser-Fingerprinting, Maus-/Tastatur-Bewegungsanalyse und IP-Reputation, um einen 'Menschlichkeits-Wahrscheinlichkeits'-Score zu berechnen.
Für Scraping- und Datenerfassungs-Workflows ist die richtige Antwort auf eine CAPTCHA-Challenge nicht, sie zu lösen -- sondern zu vermeiden, sie überhaupt auszulösen. CAPTCHAs werden ausgelöst, wenn die Anfrage verdächtig aussieht (Datacenter-IP, fehlende Header, nicht übereinstimmender Fingerabdruck, stoßweises Timing), daher ist die sauberste Lösung Hygiene: Residential-/Mobile-IPs, moderne Browser-Header, realistisches Timing und korrekte TLS-Fingerabdrücke. Wenn ein CAPTCHA erscheint, führt das Rotieren zu einer frischen IP in der Regel zu einem sauberen Pfad.
So funktioniert es
Wenn eine Anfrage eintrifft, berechnet die Website (oder ihr Anti-Bot-Anbieter) einen Risiko-Score anhand von Signalen wie: Quell-IP-Reputation (Datacenter? Jüngster Missbrauch? Land?), Browser-Fingerabdruck (User-Agent, sec-ch-ua, Bildschirmgröße, Plugins), TLS-Handshake-Fingerabdruck (JA3/JA4), Verhaltens-Signale (Mausbewegung, Tastentiming, auf der Seite verbrachte Zeit) und historische Reputation von Cookies/Tokens.
Wenn der Score unter dem Mensch-Vertrauens-Schwellenwert liegt, fügt das System eine CAPTCHA-Challenge in die Antwort ein. Die Challenge erfordert, dass der Client eine Aufgabe ausführt (Text lesen, passende Bilder anklicken, eine unsichtbare Verhaltens-Prüfung bestehen) und ein Token an den Server zurücksendet. Ohne ein gültiges Token lehnt der Server nachfolgende Anfragen ab.