Este artículo es información educativa general, no asesoramiento legal. Las leyes difieren por país y cambian con el tiempo, y cómo se aplican depende de tus hechos concretos. Para tu situación, consulta a un abogado cualificado.
“¿Es legal el web scraping?” es una de las preguntas más buscadas en el mundo de los datos, y la respuesta honesta es: normalmente sí, pero depende. El web scraping en sí, el acto de leer programáticamente páginas web públicamente disponibles, es ampliamente lícito en muchas jurisdicciones. Lo que convierte un scrape de claramente bien a legalmente arriesgado es la combinación de tres cosas: qué recoges, cómo lo recoges, y dónde estáis tú y tus objetivos.
Esta es una visión en lenguaje claro del panorama legal: los principios que deciden la mayoría de los casos, las sentencias señaladas que conviene conocer, y los hábitos prácticos que mantienen el scraping del lado correcto de la línea. No reemplazará a un abogado, pero te ayudará a hacer las preguntas correctas.
La versión corta
Para la mayoría del scraping de datos públicamente disponibles y no personales, hecho sin saltarse controles de acceso y sin sobrecargar el objetivo, los tribunales en EE. UU. y en otros lugares han sido en general permisivos. El riesgo sube bruscamente cuando cruzas a cualquiera de estos:
- Scrapear datos personales (nombres, emails, perfiles), invoca la ley de privacidad.
- Scrapear detrás de un login o muro de pago que no estás autorizado a saltarte.
- Republicar contenido con copyright en lugar de extraer hechos.
- Degradar los servidores del objetivo con carga excesiva.
- Violar los Términos de Servicio de un sitio de una forma que cree responsabilidad contractual.
Quédate en la zona segura, público, no personal, respetuoso, factual, y estás sobre terreno sólido en la mayoría de los sitios. Pisa la zona de riesgo y “¿es legal?” se vuelve una pregunta real y específica de los hechos.
Los marcos que de verdad lo deciden
La legalidad no es una sola ley, son varios cuerpos legales solapados, y un scrape dado puede tocar más de uno.
1. Leyes de acceso a computadoras (p. ej. la CFAA de EE. UU.). La Computer Fraud and Abuse Act penaliza el “acceso no autorizado” a sistemas informáticos. La pregunta clave es si scrapear páginas públicas es “no autorizado”. La ley reciente de EE. UU. ha estrechado esto considerablemente (ver los casos abajo), los datos públicos accesibles a cualquiera con un navegador generalmente no son “acceso no autorizado”. Acceder a datos detrás de autenticación que no tienes derecho a usar es otra historia.
2. Derecho contractual / Términos de Servicio. Los ToS de la mayoría de los sitios prohíben el acceso automatizado. Incumplir los ToS es generalmente un asunto contractual, no un delito, pero puede exponerte a responsabilidad civil (incumplimiento de contrato). Los tribunales toman los términos “clickwrap” (hiciste clic en “Acepto”) más en serio que los “browsewrap” (un enlace en el pie con el que nunca interactuaste). Incumplir los ToS no hace criminal el scraping, pero es un riesgo civil real.
3. Copyright. Los hechos y los datos no son protegibles por copyright; la expresión creativa sí. Extraer precios, especificaciones o estadísticas es mucho más seguro que copiar y republicar artículos, fotos u otro contenido original. Si reproduces material con copyright, estás en territorio de copyright, donde entran en juego el uso legítimo / fair dealing y las licencias.
4. Derechos de base de datos (especialmente en la UE). El derecho sui generis de base de datos de la UE protege la inversión sustancial en compilar una base de datos, incluso cuando los hechos individuales no son protegibles por copyright. Scrapear y reutilizar una parte sustancial de una base de datos protegida puede infringir este derecho en la UE, sin equivalente en EE. UU.
5. Ley de privacidad / protección de datos (GDPR, CCPA, y otras). Esta es la grande para los datos personales. El GDPR aplica a los datos personales de personas en la UE sin importar desde dónde scrapees, y generalmente exige una base legal, transparencia, y respeto de los derechos de los individuos. Scrapear datos personales, caras, perfiles, datos de contacto, es la categoría de mayor riesgo, y varios reguladores han emitido grandes multas por ello. La CCPA/CPRA de California y una lista creciente de otras leyes de privacidad añaden sus propios requisitos.
6. Trespass to chattels (intromisión en bienes). Una doctrina más antigua que puede aplicar cuando el scraping daña los sistemas del objetivo, por ejemplo sobrecargando servidores. El detonante es el daño, no el acceso.
La conclusión: no hay una sola “ley de scraping”. Que un scrape sea lícito depende de cuál de estos toca, y eso lo determina qué datos, cómo y dónde.
Casos señalados que conviene conocer
Unas pocas sentencias han moldeado cómo se desarrolla esto en la práctica. (La jurisprudencia evoluciona, tómalos como orientación, no como la última palabra actual.)
hiQ Labs v. LinkedIn (EE. UU., 9.º Circuito). hiQ scrapeó perfiles públicos de LinkedIn. Los tribunales indicaron que scrapear datos públicamente disponibles es improbable que sea “acceso no autorizado” bajo la CFAA, una señal importante de que el scraping de datos públicos no es hacking criminal. Notablemente, hiQ después enfrentó responsabilidad por motivos contractuales por incumplir los términos de LinkedIn, ilustrando que la CFAA y los ToS son preguntas separadas.
Van Buren v. United States (Tribunal Supremo de EE. UU., 2021). El Tribunal estrechó la cláusula de “excede el acceso autorizado” de la CFAA: usar un acceso que legítimamente tienes para un propósito impropio no es automáticamente una violación de la CFAA. Esto redujo la exposición a la CFAA para muchos escenarios de scraping.
Meta v. Bright Data (EE. UU., N.D. Cal., 2024). Un tribunal halló que scrapear datos públicos de Facebook e Instagram no incumplía los términos de Meta, en parte porque el scraper no estaba logueado al recoger datos públicos. Otro dato de que el scraping público y deslogueado está sobre terreno más firme que el scraping detrás de autenticación.
Clearview AI (reguladores de la UE/Reino Unido). Los reguladores multaron a Clearview por scrapear imágenes faciales, datos personales, para construir una base de datos de reconocimiento sin una base legal. Una clara ilustración de que el scraping de datos personales se rige por la ley de privacidad, donde las reglas son estrictas.
El patrón a lo largo de estos: el scraping público, deslogueado, no personal y factual es el terreno más seguro; la autenticación, los datos personales y el contenido republicado son donde se concentra el riesgo legal.
¿Dónde encajan los proxies?
Un error común es que usar un proxy cambia el cuadro legal. No lo hace, en ninguna dirección.
Un proxy residencial es una herramienta de enrutamiento, el mismo tipo de infraestructura que alimenta CDNs, VPNs y redes corporativas. Usar uno es lícito. Pero un proxy no lava la legalidad: enrutar un scrape ilícito por un proxy no lo hace lícito, y enrutar un scrape lícito por un proxy no lo hace ilícito. Los proxies cambian desde qué IP viene una petición, no si deberías estar haciéndola.
Con lo que los proxies legítimamente ayudan es a operar responsablemente a escala, distribuir la carga para no machacar un solo endpoint, y alcanzar contenido geo-apropiado. La legalidad de la actividad subyacente no cambia. (Nuestra política de uso aceptable expone lo que está permitido en Shifter, y sigue exactamente estos principios.)
Buenas prácticas para quedarte del lado correcto
No puedes obtener certeza legal de un artículo de blog, pero puedes reducir drásticamente tu riesgo incorporando estos hábitos. También resulta que son buena ingeniería.
- Scrapea datos públicos, no datos detrás de un login. La autenticación es una línea clara. Si tienes que loguearte o saltarte un control de acceso para llegar a ellos, trátalos como de alto riesgo y busca asesoramiento.
- Evita datos personales salvo que tengas una base legal. Nombres, emails, perfiles, y especialmente datos biométricos o sensibles, invocan la ley de privacidad. Si no necesitas datos personales, no los recojas. Si los necesitas, obtén el asesoramiento adecuado sobre tu base y obligaciones.
- Respeta robots.txt donde sea relevante. No es una ley, pero honrar robots.txt y los deseos declarados de un sitio es prueba fuerte de buena fe, y es la norma.
- No degrades el objetivo. Limita la tasa, scrapea en horas valle cuando sea razonable, y nunca dejes que tu recolección dañe el rendimiento del sitio. El daño al servidor es sobre lo que se construyen las demandas de trespass. (Las buenas prácticas de scraping y el comportamiento lícito se solapan mucho.)
- Extrae hechos, no republiques contenido creativo. Precios, especificaciones y datos puntuales son mucho más seguros que copiar artículos, imágenes u otra expresión original.
- Lee los Términos de Servicio. Conoce a qué estás accediendo, especialmente los términos clickwrap, y sopesa el riesgo contractual de incumplirlos.
- Atiende a la jurisdicción. Los sujetos de datos de la UE meten el GDPR en juego dondequiera que operes; las bases de datos de la UE meten los derechos de base de datos; las leyes de tu propio país también aplican. El scraping transfronterizo multiplica los manuales de reglas.
- Documenta tu propósito y proceso. El uso legítimo y bien documentado (comparación de precios, investigación, monitorización) es más fácil de defender que la recolección vaga o agresiva.
Estos principios son los mismos que hay detrás de la construcción responsable de datasets y la recolección de datos de entrenamiento, el cumplimiento y la calidad tiran en la misma dirección.
Preguntas frecuentes
¿Es legal el web scraping? En general, scrapear datos públicamente disponibles y no personales sin saltarse controles de acceso ni dañar el objetivo es ampliamente lícito en muchas jurisdicciones. Se vuelve legalmente arriesgado cuando implica datos personales, autenticación/muros de pago, contenido con copyright, daño al servidor, o un incumplimiento de los Términos de Servicio. Siempre depende de los hechos concretos y la jurisdicción.
¿Es legal scrapear datos públicos? Los datos públicos y deslogueados son el terreno más seguro, la jurisprudencia de EE. UU. ha indicado repetidamente que scrapear páginas públicamente accesibles es improbable que sea “acceso no autorizado”. Pero público no significa sin restricciones: si esos datos públicos son datos personales, la ley de privacidad sigue aplicando, y republicar contenido público con copyright sigue planteando cuestiones de copyright.
¿Incumplir los Términos de Servicio hace ilegal el scraping? No criminal, pero potencialmente un problema civil. Incumplir los ToS es generalmente un asunto contractual que puede exponerte a responsabilidad por incumplimiento de contrato, separado de las leyes de acceso a computadoras. Los términos clickwrap (aceptaste activamente) tienen más peso que los browsewrap (un enlace en el pie).
¿Es legal scrapear datos personales? Esta es la categoría de mayor riesgo. Los datos personales activan leyes de privacidad como el GDPR (para personas en la UE, desde dondequiera que scrapees) y la CCPA, que generalmente exigen una base legal e imponen obligaciones. Varios reguladores han multado a empresas por scrapear datos personales sin una base. Obtén asesoramiento legal antes de scrapear datos personales.
¿Usar un proxy hace legal o ilegal el scraping? Ninguno de los dos. Un proxy es una herramienta de enrutamiento lícita; cambia desde qué IP viene una petición, no si la actividad subyacente está permitida. No puede hacer lícito un scrape ilícito, ni hace ilícito un scrape lícito.
¿Es legal scrapear contenido con copyright? Extraer hechos (precios, especificaciones, números) es generalmente seguro porque los hechos no son protegibles por copyright. Copiar y republicar contenido creativo original, artículos, fotos, vídeo, puede infringir el copyright salvo que esté cubierto por uso legítimo / fair dealing o una licencia.
En resumen
El web scraping es, en su mayor parte, legal, especialmente cuando recoges datos públicos, no personales y factuales sin saltarte controles de acceso ni dañar el sitio. El riesgo legal vive en los bordes: datos personales, autenticación, contenido con copyright, sobrecarga del servidor, y términos contractuales. La mayor parte de mantenerse en cumplimiento es simplemente mantenerse fuera de esos bordes y actuar de buena fe.
Nada de esto sustituye al asesoramiento sobre tu proyecto concreto, ante la duda, habla con un abogado. Pero los principios son consistentes y aprendibles: scrapea lo que es público, toma solo lo que necesitas, no dañes el objetivo, respeta la privacidad y el copyright, y conoce tus jurisdicciones. Hazlo, y una red de proxies residenciales de calidad es solo infraestructura responsable para recoger datos públicos a escala, tal como está pensada para usarse. Para más sobre el web scraping en sí, empieza con qué es el web scraping y cómo apoya a un negocio.