Si has buscado proxies en el último año, habrás visto las mismas tres etiquetas en todas partes: residencial, ISP, datacenter. Las etiquetas son suficientemente conocidas como para que la mayoría de los equipos elijan una categoría y sigan adelante. Los mecanismos que hay debajo son menos conocidos, y ahí es donde se originan la mayoría de los problemas en producción.
Este es un recorrido por lo que es realmente una IP, qué leen los sitios de destino a partir de ella, y por qué “residencial” se parece más a un espectro que a una clasificación binaria.
Qué representa realmente una dirección IP
Una dirección IP es un número de enrutamiento. Apunta a una interfaz de red en una máquina conectada a la internet pública. Esa es la definición funcional completa.
Todo lo demás, la distinción residencial frente a datacenter, la asociación geográfica, la “reputación” de la IP, son metadatos añadidos encima por terceros. La IP en sí no lleva nada de eso. Se consulta contra bases de datos que dicen “esta IP pertenece a la red X, que es propiedad de la entidad Y, que la base de datos ha clasificado como tipo Z.”
Los dos metadatos más importantes son:
ASN (Autonomous System Number). Cada bloque de IPs en internet está registrado en un ASN. Los ASN pertenecen a organizaciones: Comcast (AS7922), Verizon (AS701), Cloudflare (AS13335), Amazon AWS (AS16509). Cuando un sitio de destino recibe una solicitud, lo primero que hace su capa anti-bot es consultar el ASN de la IP de origen y comprobar qué tipo de organización lo posee.
Geolocalización. Una base de datos independiente (MaxMind GeoIP2, IP2Location, equivalentes propios) mapea bloques de IPs a coordenadas geográficas. La precisión varía desde el nivel de país (muy fiable) hasta el nivel de ciudad (bastante fiable) y el nivel de calle (mayormente ficticio). El sitio usa esto para determinar dónde afirmar que está el visitante, en qué moneda mostrar los precios y qué resultados locales mostrar.
Ambas son bases de datos externas. La IP no sabe en qué país está. La IP no sabe quién la posee. Todo el mundo lee del mismo conjunto de proveedores, y esos proveedores ocasionalmente no coinciden entre sí.
Las tres categorías de IP, mecánicamente
Ahora las etiquetas.
IPs de datacenter. El ASN pertenece a un proveedor de hosting: AWS, GCP, Azure, OVH, Digital Ocean, Hetzner. El bloque de IPs está registrado como “hosting” en las principales bases de datos de reputación. La geolocalización apunta a donde se encuentre la instalación de colocación. Estas IPs son baratas de adquirir y tienen una reputación residencial prácticamente nula, por lo que los sitios de destino con defensas activas las tratan con alta sospecha por defecto.
IPs residenciales. El ASN pertenece a un ISP de consumo: Comcast, Spectrum, Deutsche Telekom, BT, Free, NTT, más miles de proveedores regionales. El bloque de IPs está registrado como “residencial” o “consumidor” en las bases de datos de reputación. La geolocalización apunta al área del hogar al que da servicio el ISP. Estas IPs tienen años de comportamiento de “consumidor real” asociado (alguien en ese hogar hace streaming en Netflix, navega por Twitter, juega en Steam), por lo que las bases de datos de reputación tienen un prior positivo sobre ellas.
IPs de ISP. El ASN pertenece a un ISP de consumo, PERO la máquina real desde la que sale el tráfico está en un datacenter. El ISP ha asignado un bloque de su espacio de direcciones a un cliente de colocación, que enruta el tráfico a través de él. La consulta del ASN dice “ISP residencial.” Las bases de datos de reputación dicen “residencial.” El tráfico se mueve a velocidades de datacenter. Esta es la categoría de “proxy ISP”, y existe precisamente porque las decisiones anti-bot de los sitios de destino se toman en función de la consulta del ASN, no de la realidad del hosting real.
Las etiquetas no mienten. Se corresponden con diferencias reales y observables en lo que muestran las consultas upstream. Simplemente no se corresponden con “dónde está la máquina física”, y los sitios de destino mayormente no comprueban eso.
Lo que lee el sitio de destino, paso a paso
Cuando una solicitud llega a un sitio protegido, la capa anti-bot normalmente ejecuta esta secuencia:
1. Consulta del ASN. La IP de origen se consulta contra una base de datos de ASN. Resultado: nombre de la red propietaria y su clasificación (residencial / hosting / empresarial / móvil / desconocido).
2. Consulta de reputación de IP. La IP de origen se cruza con una base de datos de reputación que agrega señales del resto de la web. ¿Ha estado esta IP involucrada en credential stuffing? ¿Spam en comentarios? ¿Scraping? La puntuación de reputación es por IP, alimentada por datos de sitios que comparten señales (Cloudflare gestiona el mayor pool; los actores más pequeños consumen de él o pagan a especialistas).
3. Consulta de geolocalización. La IP de origen se mapea a un país, a menudo a una ciudad. El sitio usa esto para localizar la respuesta (precios, idioma, avisos regulatorios, productos disponibles).
4. Comprobación de fingerprint. Esto es independiente de la IP, pero el sitio lo hace en paralelo. El User-Agent de la solicitud, el orden del handshake TLS (JA3/JA4), las señales emitidas por el navegador (canvas, fuentes, WebGL) se obtienen como fingerprint y se comparan con fingerprints de bots conocidos.
5. Historial de comportamiento. Si la sesión tiene continuidad (cookies, coincidencia de fingerprint entre solicitudes), el sitio analiza el patrón de múltiples solicitudes. ¿Cuántas páginas por minuto? ¿Qué tan natural es la cadencia de clics? ¿El visitante hizo scroll? ¿Pasó el cursor por encima?
Una IP residencial limpia supera los pasos 1, 2 y 3 sin problemas. El sitio ve “Comcast, residencial, US-East, reputación neutra” y sirve la página real. Las comprobaciones de fingerprint y comportamiento ocurren, pero el prior es mucho más indulgente que para una IP de datacenter.
Una IP de datacenter genera sospecha inmediata en el paso 1. El sitio ya puede justificar servir una versión degradada, bloquear o mostrar un CAPTCHA antes incluso de leer el cuerpo de la solicitud.
Una IP de ISP parece idéntica a una IP residencial a nivel de ASN, por lo que supera el paso 1 de la misma manera. Las bases de datos de reputación a veces la detectan (algunos especialistas detectan que “este bloque de IPs ha alojado solicitudes con patrones de temporización muy poco humanos”), pero la mayoría sigue clasificándola como residencial.
Por qué “residencial” no es suficiente
Un ASN residencial te permite pasar la puerta. No garantiza nada más allá.
Lo que el sitio puede seguir viendo, con una IP residencial:
- Volumen de solicitudes por IP. Una IP residencial haciendo 500 solicitudes por minuto a las páginas de productos del sitio no encaja con “visitante doméstico.” Incluso con un ASN limpio, la tasa por sí sola es una señal.
- Fingerprint TLS. Los navegadores reales producen ordenaciones específicas de cifrados TLS, listas de extensiones y valores ALPN. Un scraper que usa la librería
requestsde Python produce un fingerprint TLS diferente que lleva años catalogado y reconocido. ASN residencial + TLS de Python = bot evidente. - Anomalías en las cabeceras. Los navegadores reales envían docenas de cabeceras en un orden específico con valores específicos. Un Accept-Language ausente, un Sec-Ch-Ua que no coincide, un orden que no se corresponde con el orden de emisión real de Chrome, son todas señales.
- Firma de comportamiento. Los visitantes reales pasan el cursor, hacen scroll, abandonan, vuelven. Los bots recorren páginas en línea recta. Las páginas por sesión, el tiempo en página, la presencia o ausencia de eventos de ratón, todo se mide.
Un scraper ejecutándose en una IP residencial sin abordar nada de lo anterior acabará siendo clasificado. La IP solo compra tiempo, no invisibilidad. Los equipos que tienen éxito en la recopilación sostenida de datos también invierten en el resto del stack: User-Agents realistas, navegadores headless reforzados, cadencias de solicitudes razonables, formas de sesión plausibles.
Qué implica esto a la hora de elegir una red
Algunas implicaciones prácticas:
El tamaño del pool es una señal, no la señal completa. Un pool de 200 millones de IPs residenciales te da más opciones de reemplazo cuando las IPs individuales se queman. No hace que cada IP individual sea más difícil de detectar. Lo que importa igual o más es la capacidad de la red para rotar las IPs quemadas, incorporar IPs frescas y mantener diversidad de ASN y geográfica a lo largo del tiempo.
El origen importa más de lo que suelen reconocer los compradores. Las IPs obtenidas mediante acuerdos de opt-in transparentes con usuarios que han dado su consentimiento se comportan más como tráfico real de consumidor en la red (porque SON tráfico real de consumidor, usado de forma intermitente). Las IPs obtenidas por canales menos transparentes a menudo tienen fingerprints de comportamiento que los sistemas anti-bot han aprendido específicamente a reconocer.
La red adecuada para una carga de trabajo no es la adecuada para otra. Un pipeline de scraping masivo contra objetivos tolerantes se beneficia de un pool enorme con rotación por solicitud. Un flujo de trabajo de gestión de cuentas de larga duración necesita IPs de ISP fijas con persistencia de sesión. Un agente de IA que navega en múltiples pasos necesita sesiones residenciales persistentes por ejecución. Elegir una única red “mejor” es el enfoque equivocado.
La IP es una de muchas señales. Incluso una IP residencial perfecta puede hacer que una solicitud sea bloqueada si la propia solicitud parece robótica. Por el contrario, una IP menos perfecta puede tener éxito cuando la forma de la solicitud que la rodea es plausible. La capa de IP es necesaria, pero no suficiente.
La conclusión
Cuando eliges una red de proxies residenciales, la pregunta no es “¿es residencial?” (las IPs de cualquier red con credibilidad son residenciales por ASN). Las preguntas son:
- ¿Cómo está obteniendo sus IPs la red?
- ¿Con qué rapidez rota las IPs quemadas?
- ¿Qué diversidad geográfica y de ASN tiene el pool?
- ¿Qué tan bien preserva el gateway el estado de sesión cuando lo necesitas?
- ¿Qué aspecto tiene la forma de la solicitud cuando sale del gateway?
Estas son preguntas con respuesta, y las respuestas importan más que el tamaño del pool en el titular. Los mecanismos que hay debajo de la etiqueta “residencial” son donde vive la calidad real, y donde se determina el comportamiento real en producción.