Por qué la web abierta importa más en la era de la IA

Los muros de pago, los muros de inicio de sesión y el contenido exclusivo para apps siguen reduciendo la web abierta. El grounding con IA encarece esa reducción. El caso a favor del acceso público a la web.

Hace una década, “la web” y “la web abierta” eran casi lo mismo. Escribías una URL, obtenías HTML y lo leías. Los motores de búsqueda la indexaban. Los investigadores la citaban. Los agregadores la mostraban. Existía un espacio de direcciones público, un protocolo público y una suposición por defecto de que lo que había en ella era accesible.

Eso se ha ido erosionando silenciosamente durante años. Vale la pena decir en voz alta adónde ha llegado la situación, porque las implicaciones para la próxima generación de productos de datos son enormes.

Lo que “abierta” solía significar

La web abierta de principios de los años 2010 tenía tres propiedades que dábamos por sentadas:

Accesibilidad. Una página tenía una URL. Acceder a la URL devolvía la página. La página tenía enlaces a otras páginas, que también tenían URLs. El grafo era recorrible.

Renderizabilidad. Una solicitud a la URL devolvía HTML o algo suficientemente parecido. Podías leerla sin ejecutar JavaScript, o podías ejecutar JavaScript y obtener el mismo contenido con elementos visuales adicionales.

Estabilidad de identidad. Una página que existía la semana pasada probablemente existía hoy, en la misma URL, con contenido similar. Podías citarla. Podías verificarla.

Ninguna de esas propiedades está garantizada hoy.

Lo que se ha comido la web abierta

Varias fuerzas, en su mayoría en paralelo, en su mayoría con motivaciones individuales razonables:

Muros de pago. Los medios de comunicación necesitaban ingresos. La mayoría de los grandes medios pusieron un muro de pago duro o por contador delante de todo. El contenido sigue existiendo en la URL, pero no puedes leerlo sin una cuenta y una tarjeta de crédito. Los motores de búsqueda ven una versión diferente a la que ven los humanos sin sesión iniciada.

Muros de inicio de sesión. Las plataformas sociales antes eran accesibles desde la web abierta. En 2014 podías leer un hilo de Twitter sin tener cuenta. Hoy, la mayor parte de LinkedIn, X, Instagram, Reddit (de forma intermitente) y Facebook están cerradas. El contenido sigue ahí, pero la URL ya no lo resuelve.

Primero la app. Una parte creciente del contenido vive en apps que no tienen equivalente web: TikTok y una larga cola de apps específicas para sectores verticales. No hay URL. No hay página. El contenido existe únicamente dentro de un entorno de ejecución cerrado.

Anti-scraping. Incluso cuando la URL sigue funcionando, el contenido que hay detrás está cada vez más protegido por Cloudflare, Akamai y una docena de especialistas. La página se renderiza perfectamente para un visitante doméstico y devuelve un desafío CAPTCHA para todos los demás.

Personalización. Las páginas que parecen iguales en realidad no lo son. El listado de producto que ves en un gran sitio de comercio electrónico ha sido personalizado según tu ubicación, tu historial de navegación, tu nivel de ingresos inferido y tu grupo de prueba A/B. Ya no existe una versión canónica. Existe una versión por visitante.

Cada una de estas situaciones tiene defensores razonables. Ninguna va a revertirse. El efecto neto es que la web abierta es más pequeña y más fragmentada que antes, y el coste de ver la web pública como un conjunto de datos representativo ha aumentado.

Por qué la IA eleva las apuestas

En la era anterior, la web abierta era consumida principalmente por humanos que leían páginas individuales y por motores de búsqueda que las indexaban. El valor económico de cualquier página concreta era relativamente bajo.

Eso ha cambiado. Los sistemas de IA modernos tratan la web como su conjunto de datos de tres maneras distintas:

Entrenamiento. Los modelos de frontera se entrenan con corpus a escala web. La composición de ese corpus determina lo que el modelo sabe y cómo responde a las preguntas.

Grounding (generación aumentada por recuperación). Los sistemas en producción que necesitan información actualizada, la fecha, el precio, la noticia, la actualización regulatoria, recuperan de la web en tiempo real durante la inferencia. El objetivo de recuperación son URLs reales que devuelven HTML real.

Navegación agéntica. Una nueva clase de sistemas de IA navega por la web en nombre de los usuarios: reserva vuelos, compara precios, rellena formularios. Estos sistemas acceden a páginas reales y necesitan que se rendericen correctamente.

En los tres casos, lo que la web abierta puede o no puede servir determina directamente lo que un sistema de IA puede hacer. Si una página está detrás de un muro de pago, de un inicio de sesión o solo se renderiza dentro de una app, funcionalmente no existe para la capa de IA. Si se sirve de forma diferente a los bots que a los humanos, la IA ve una versión degradada. Si está bloqueada a nivel de red, la IA no ve nada.

El coste de una web abierta incompleta se multiplica en la capa de IA porque la IA amplifica el acceso. Un scraping fallido antes era un dato que faltaba. Hoy, la misma laguna aparece en un millón de respuestas del modelo.

Qué tiene que ver la infraestructura con todo esto

Las redes de proxies son la respuesta aburrida, a nivel de fontanería, a una parte de este problema. No arreglan los muros de pago, no desbloquean las apps y no hacen frente a los proveedores anti-bot. Lo que hacen es restaurar una medida de acceso representativo: permiten que una solicitud se origine desde una conexión residencial real, en una geografía real, con una reputación de red real, de modo que la web abierta que sigue siendo abierta realmente se abra para ella.

Esta es una solución parcial a un problema mucho mayor. No pretendemos lo contrario. La respuesta completa a “cómo mantenemos la web abierta funcional” va a requerir presión regulatoria, inversiones en infraestructura pública, requisitos de transparencia sobre la personalización y el cierre de contenidos, y una revisión general de lo que debería significar “disponible públicamente” en la era del consumo por IA. Nada de eso se va a resolver este año.

Mientras tanto, las partes de la web que siguen siendo públicas deberían ser realmente accesibles para los sistemas que necesitan acceder a ellas. Esa es la pequeña pieza en la que trabajamos, y esa es la pequeña pieza que motivó principalmente la última ronda de inversión en nuestra red residencial.

La versión honesta

Una web abierta más accesible es buena para el grounding con IA, buena para la investigación, buena para el periodismo, buena para la transparencia de precios, buena para la elección del consumidor, buena para casi todo el mundo excepto para las entidades que capturan directamente rentas a través del cierre de contenidos. La tendencia va en su contra. Nada de lo que desarrollamos va a revertir esa tendencia.

Lo que podemos hacer, y lo que puede hacer la capa de infraestructura en general, es asegurarnos de que las partes de la web que siguen siendo públicas permanezcan accesibles para los sistemas que las necesitan. Ese es un objetivo más modesto que “salvar la web abierta”. También es alcanzable, y cada año que la IA se convierte en el principal consumidor de lo que la web tiene para ofrecer, importa más.

Por qué la web abierta importa más en la era de la IA

Lo que “abierta” solía significar

Lo que se ha comido la web abierta

Por qué la IA eleva las apuestas

Qué tiene que ver la infraestructura con todo esto

La versión honesta

¿Listo para empezar?

Artículos relacionados

4 Razones Sencillas por las que las Empresas Adoran Usar Proxies

5 Grandes Ventajas Para Las Empresas Que Usan Proxies

5 puntos: proxies residenciales frente a proxies de centro de datos para scraping con IA