知识

为什么开放网络在 AI 时代比以往更重要

付费墙、登录墙和应用优先的内容正在不断压缩开放网络的空间。AI 数据接地让这种收窄的代价愈发高昂。本文探讨公共网络访问的重要性。

James Meadow

James Meadow

2026年4月24日 · 1 分钟阅读

十年前,“网络”与”开放网络”几乎是同一个概念。你输入一个 URL,得到 HTML,然后阅读内容。搜索引擎对其建立索引,研究人员引用它,聚合器将其呈现出来。公共地址空间、公共协议,以及网络上的内容默认可访问——这些都是理所当然的事。

然而,这一切已被悄然侵蚀多年。现在有必要直说它走到了哪一步,因为这对下一代数据产品的影响不可小觑。

“开放”曾经意味着什么

2010 年代初的开放网络具备三个我们几乎视为理所当然的特性:

可达性。 一个页面有一个 URL。获取该 URL 就能返回页面内容。页面包含指向其他页面的链接,而那些页面同样有 URL。整个图谱是可遍历的。

可渲染性。 请求某个 URL 会返回 HTML 或近似的内容。你无需运行 JavaScript 就能阅读,或者运行 JavaScript 后得到的也是相同内容,只是多了些视觉样式。

身份稳定性。 上周存在的页面今天大概率仍然存在,URL 不变,内容相近。你可以引用它,也可以核查它。

如今,这三个特性都无法得到保证。

是什么蚕食了开放网络

几股力量同步推进,各自都有合理的动机:

付费墙。 新闻机构需要营收。大多数主流媒体在所有内容前设置了硬性或计量付费墙。内容仍然存在于该 URL,但没有账号和信用卡就无法阅读。搜索引擎看到的版本与未登录用户看到的不同。

登录墙。 社交平台曾经可以从开放网络直接访问。2014 年,你无需账号就能阅读 Twitter 帖子。如今,LinkedIn、X、Instagram、Reddit(时断时续)和 Facebook 的大部分内容都已设门槛。内容仍然存在,但 URL 不再直接指向它。

应用优先。 越来越多的内容只存在于没有网页版的应用中,TikTok 以及大量垂直领域的应用均是如此。没有 URL,没有页面,内容只存在于封闭的运行时环境中。

反爬取。 即便 URL 仍然有效,其背后的内容也越来越多地受到 Cloudflare、Akamai 以及十几家专业服务商的防护。页面对普通家庭用户正常渲染,对其他所有人则返回 CAPTCHA 验证。

个性化。 看似相同的页面实际上并不相同。你在某大型电商网站看到的商品列表,已根据你的地理位置、浏览历史、推断收入水平和 A/B 测试分组进行了个性化处理。不再存在规范版本,只有针对每位访客的专属版本。

上述每一点都有其合理的支持者,也没有一点会逆转。综合效果是:开放网络比以前更小、更碎片化,而将公共网络视为代表性数据集的成本也随之上升。

为什么 AI 让风险更高

在过去,开放网络主要由阅读单个页面的人类用户和对其建立索引的搜索引擎消费。任何单个页面的经济价值相对较低。

这一切已经改变。现代 AI 系统以三种截然不同的方式将网络视为其数据集:

训练。 前沿模型在网络规模的语料库上训练。语料库的构成决定了模型所掌握的知识以及它回答问题的方式。

数据接地(检索增强生成)。 需要实时信息的生产系统——日期、价格、新闻、监管更新——在推理时从实时网络检索。检索目标是真实 URL 返回的真实 HTML。

智能体浏览。 一类新型 AI 系统代表用户浏览网络,预订机票、比较价格、填写表单。这些系统访问真实页面,并需要页面正确渲染。

在这三种情况下,开放网络能否提供服务,直接决定了 AI 系统能做什么。如果一个页面设有付费墙、需要登录,或只能在应用内渲染,它在 AI 层面上就等同于不存在。如果它向机器人提供的版本与向人类提供的不同,AI 看到的就是降级版本。如果它在网络层被屏蔽,AI 什么也看不到。

开放网络不完整的代价在 AI 层面会成倍放大,因为 AI 会将访问规模乘以倍数。过去一次失败的爬取不过是一个缺失的数据点。如今,同样的缺口会出现在数百万次模型响应中。

基础设施能做什么

代理网络是解决这一问题某个局部的枯燥底层方案。它无法修复付费墙,无法解锁应用,也无法对抗反机器人服务商。它能做的,是在一定程度上恢复具有代表性的访问能力——让请求从真实的住宅连接发出,来自真实的地理位置,携带真实的网络信誉,从而让那些仍然开放的开放网络真正向其开放。

这是对一个更大问题的局部修补。我们不会假装不是这样。“如何保持开放网络的正常运转”这一问题的完整答案,需要监管压力、公共基础设施投资、对个性化和内容封锁的透明度要求,以及对”公开可用”在 AI 消费时代应有何种含义的全面重新讨论。这些都不会在今年得到解决。

与此同时,网络中仍然公开的部分,应当真正对需要访问它们的系统可达。这是我们所做工作的一小部分,也是推动我们最近一轮住宅网络投资的主要动力。

坦诚地说

一个更易访问的开放网络,有利于 AI 数据接地,有利于研究,有利于新闻业,有利于价格透明度,有利于消费者选择,对几乎所有人都有好处——除了那些直接从内容封锁中获取租金的实体。趋势对此并不乐观,我们发布的任何产品都无法扭转这一趋势。

我们能做的,以及更广泛的基础设施层能做的,是确保网络中仍然公开的部分,对需要访问它们的系统保持可达。这个目标比”拯救开放网络”要小得多,但它是可以实现的,而且随着 AI 日益成为网络内容的主要消费者,它每年都变得更加重要。

标签: open web ai data access industry

准备好开始了吗?

试用 Shifter 住宅代理,205M+ 个 IP,195+ 个国家,低至 $1.00/GB。

立即开始