Glosario

¿Qué es un CAPTCHA?

Un CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) es un sistema de desafío-respuesta que los sitios web utilizan para distinguir a los visitantes humanos de los bots automatizados, normalmente pidiendo al visitante que resuelva un puzzle fácil para los humanos pero difícil para el software.

Comprende cómo funcionan los CAPTCHA, por qué aparecen, las variantes modernas (imagen, audio, invisible, conductual) y cómo evitar activarlos al hacer scraping.

Explicado

Un CAPTCHA es el desafío de detección de bots que aparece cuando un sitio web cree que su tráfico podría ser automatizado. La forma clásica es una imagen de texto distorsionado que hay que leer; las formas modernas son puzzles de cuadrícula de imágenes ('seleccione todos los cuadros con semáforos'), desafíos de audio y CAPTCHAs de comportamiento o invisibles que observan cómo interactúa con la página y lo califican silenciosamente como humano o bot antes de que sepa siquiera que hay una comprobación.

Los principales proveedores de CAPTCHA hoy en día son Google reCAPTCHA (v2, v3 y el nivel Enterprise) y hCaptcha, ambos ampliamente utilizados detrás de stacks anti-bot como Cloudflare y Akamai. Cloudflare también ejecuta su propio desafío Turnstile como alternativa a reCAPTCHA y hCaptcha. Cada sistema utiliza una combinación diferente de puzzles de imágenes, fingerprinting de navegador, análisis de movimientos de ratón y teclado, y reputación de IP para calcular una puntuación de 'probabilidad de ser humano'.

Para los flujos de trabajo de scraping y recopilación de datos, la respuesta correcta a un desafío CAPTCHA no es resolverlo, sino evitar activarlo en primer lugar. Los CAPTCHAs se disparan cuando la solicitud parece sospechosa (IP de datacenter, cabeceras faltantes, huella digital no coincidente, ritmo en ráfagas), por lo que la solución más limpia es la higiene: IPs residenciales o móviles, cabeceras de navegador modernas, temporización realista y huellas digitales TLS correctas. Cuando aparece un CAPTCHA, rotar a una IP nueva suele encontrar un camino limpio.

Cómo funciona

Cuando llega una solicitud, el sitio web (o su proveedor anti-bot) calcula una puntuación de riesgo usando señales como: reputación de la IP de origen (¿datacenter?, ¿abuso reciente?, ¿país?), huella digital del navegador (User-Agent, sec-ch-ua, tamaño de pantalla, plugins), huella digital del handshake TLS (JA3/JA4), señales de comportamiento (movimiento del ratón, temporización de teclas, tiempo en la página) y reputación histórica de cookies y tokens.

Si la puntuación está por debajo del umbral de confianza humana, el sistema inserta un desafío CAPTCHA en la respuesta. El desafío requiere que el cliente realice una tarea (leer texto, hacer clic en imágenes coincidentes, superar una comprobación de comportamiento invisible) y envíe un token de vuelta al servidor. Sin un token válido, el servidor rechaza las solicitudes posteriores.

Tipos

CAPTCHA basado en texto

Imágenes de texto distorsionado que el usuario debe leer y escribir. La forma clásica, prácticamente retirada hoy en día porque el OCR y el aprendizaje automático pueden resolverlos.

CAPTCHA de cuadrícula de imágenes (reCAPTCHA v2)

'Selecciona todos los cuadros que contengan semáforos / pasos de peatones / bocas de incendio.' Habitual como alternativa cuando el reCAPTCHA invisible marca la solicitud.

CAPTCHA invisible / conductual (reCAPTCHA v3, Turnstile)

En la mayoría de los casos no requiere interacción del usuario. El sistema toma la huella digital de la página y del visitante de forma pasiva y devuelve una puntuación (0.0 = bot, 1.0 = humano). El sitio decide qué umbral aplicar.

CAPTCHA de audio

Desafíos de dígitos o palabras habladas, principalmente como alternativa de accesibilidad para los CAPTCHA visuales.

hCaptcha

Una alternativa a reCAPTCHA utilizada por Cloudflare y muchos sitios centrados en la privacidad. Funcionalmente similar: desafíos de cuadrícula de imágenes más señales conductuales, con diferente política y modelo económico.

Casos de uso habituales

Prevención de spam en formularios de registro y contacto
Limitación de intentos de inicio de sesión contra el relleno de credenciales
Defensa contra bots en comentarios y foros
Defensa contra bots de reservas (entradas, zapatillas, reservaciones)
Disuasión de scrapers en APIs y páginas protegidas
Preguntas frecuentes

Preguntas frecuentes

Preguntas frecuentes sobre captcha.

Tu tráfico está activando una señal de 'parece un bot'. Las causas más comunes son: IPs de datacenter (marcadas al instante), cabeceras de navegador ausentes o incorrectas, ausencia de motor JavaScript cuando el sitio lo espera, ritmo de solicitudes en ráfagas desde la misma IP o huellas TLS desactualizadas. Cambia a proxies residenciales, envía cabeceras modernas y regula el ritmo de tus solicitudes.