Explicado
Un CAPTCHA es el desafío de detección de bots que aparece cuando un sitio web cree que su tráfico podría ser automatizado. La forma clásica es una imagen de texto distorsionado que hay que leer; las formas modernas son puzzles de cuadrícula de imágenes ('seleccione todos los cuadros con semáforos'), desafíos de audio y CAPTCHAs de comportamiento o invisibles que observan cómo interactúa con la página y lo califican silenciosamente como humano o bot antes de que sepa siquiera que hay una comprobación.
Los principales proveedores de CAPTCHA hoy en día son Google reCAPTCHA (v2, v3 y el nivel Enterprise) y hCaptcha, ambos ampliamente utilizados detrás de stacks anti-bot como Cloudflare y Akamai. Cloudflare también ejecuta su propio desafío Turnstile como alternativa a reCAPTCHA y hCaptcha. Cada sistema utiliza una combinación diferente de puzzles de imágenes, fingerprinting de navegador, análisis de movimientos de ratón y teclado, y reputación de IP para calcular una puntuación de 'probabilidad de ser humano'.
Para los flujos de trabajo de scraping y recopilación de datos, la respuesta correcta a un desafío CAPTCHA no es resolverlo, sino evitar activarlo en primer lugar. Los CAPTCHAs se disparan cuando la solicitud parece sospechosa (IP de datacenter, cabeceras faltantes, huella digital no coincidente, ritmo en ráfagas), por lo que la solución más limpia es la higiene: IPs residenciales o móviles, cabeceras de navegador modernas, temporización realista y huellas digitales TLS correctas. Cuando aparece un CAPTCHA, rotar a una IP nueva suele encontrar un camino limpio.
Cómo funciona
Cuando llega una solicitud, el sitio web (o su proveedor anti-bot) calcula una puntuación de riesgo usando señales como: reputación de la IP de origen (¿datacenter?, ¿abuso reciente?, ¿país?), huella digital del navegador (User-Agent, sec-ch-ua, tamaño de pantalla, plugins), huella digital del handshake TLS (JA3/JA4), señales de comportamiento (movimiento del ratón, temporización de teclas, tiempo en la página) y reputación histórica de cookies y tokens.
Si la puntuación está por debajo del umbral de confianza humana, el sistema inserta un desafío CAPTCHA en la respuesta. El desafío requiere que el cliente realice una tarea (leer texto, hacer clic en imágenes coincidentes, superar una comprobación de comportamiento invisible) y envíe un token de vuelta al servidor. Sin un token válido, el servidor rechaza las solicitudes posteriores.