本文是一般性的科普信息,不是法律意见。法律因国家而异、随时间变化,而它如何适用取决于你的具体事实。就你的情况,请咨询合格的律师。
“网页抓取合法吗?”是数据世界里被搜索得最多的问题之一,而诚实的答案是:通常合法,但要看情况。网页抓取本身——以程序方式读取公开可访问的网页——在许多司法辖区是广泛合法的。把一次抓取从”明显没问题”变成”在法律上有风险”的,是三件事的组合:你采什么、你怎么采、以及你和你的目标在哪里。
这是一份关于法律全景的通俗概览:决定大多数案件的原则、值得知道的标志性判决、以及让抓取留在线正确一侧的实践习惯。它替代不了律师,但能帮你问对问题。
简短版
对大多数公开可得、非个人的数据的抓取,在不绕过访问控制且不让目标过载的前提下进行,美国和其它地方的法院总体上是宽容的。一旦你跨入下面任何一项,风险就陡然上升:
- 抓取个人数据(姓名、邮箱、个人资料)——触发隐私法。
- 抓取你无权绕过的登录或付费墙背后的内容。
- 再发布受版权保护的内容,而不是提取事实。
- 用过量负载拖垮目标的服务器。
- 以会产生合同责任的方式违反一个站点的服务条款。
待在安全区——公开、非个人、有礼、事实性——你在大多数地方都站在稳固的地面上。踏进风险区,“它合法吗”就变成一个真实的、依事实而定的问题。
真正决定它的那些框架
合法性不是一部法律,而是若干相互重叠的法律领域,而某一次抓取可能触及不止一个。
1. 计算机访问法(例如美国的 CFAA)。 Computer Fraud and Abuse Act 惩罚对计算机系统的”未授权访问”。关键问题是:抓取公开页面算不算”未授权”。美国近期的法律已大幅收窄了这一点(见下面的判例)——任何人用浏览器都能访问到的公开数据,通常不是”未授权访问”。访问你无权使用的、认证背后的数据,则是另一回事。
2. 合同法 / 服务条款。 大多数站点的服务条款禁止自动化访问。违反服务条款通常是合同问题,不是犯罪,但可能让你面临民事责任(违约)。法院对”clickwrap”条款(你点过”我同意”)比对”browsewrap”(你从未交互过的页脚链接)看得更重。违反服务条款不会让抓取变成刑事,但它是一个真实的民事风险。
3. 版权。 事实和数据不受版权保护;创造性表达受。提取价格、规格或统计数据,比复制并再发布文章、照片或其它原创内容安全得多。如果你复制受版权保护的材料,你就进入了版权领域,合理使用 / fair dealing 和许可在那里登场。
4. 数据库权利(尤其在欧盟)。 欧盟的特殊(sui generis)数据库权保护编纂一个数据库的实质性投入——即便单个事实本身不受版权保护。在欧盟,抓取并再利用一个受保护数据库的实质性部分,可能侵犯这项权利,而美国没有对等物。
5. 隐私 / 数据保护法(GDPR、CCPA 等)。 对个人数据来说,这是最大的那个。GDPR 适用于欧盟境内人员的个人数据——无论你从哪里抓取——而且它通常要求合法依据、透明度、以及尊重个人的权利。抓取个人数据——面孔、个人资料、联系方式——是风险最高的类别,多个监管机构已为此开出巨额罚单。加州的 CCPA/CPRA 以及一份不断增长的其它隐私法清单,各自又加上了自己的要求。
6. 动产侵扰(trespass to chattels)。 一个较老的法理,当抓取损害了目标的系统时可能适用——例如通过让服务器过载。触发它的是损害,而不是访问。
要点是:并没有单一的”抓取法”。一次抓取是否合法,取决于它触及上述哪些领域,而这又由”什么数据、怎么抓、在哪里”决定。
值得知道的标志性判例
有几项判决塑造了这件事在实践中的走向。(判例法在演变,把它们当作方向感,而不是当下的最终定论。)
hiQ Labs v. LinkedIn(美国,第九巡回法院)。 hiQ 抓取了 LinkedIn 的公开个人资料。法院表示,抓取公开可得的数据不太可能构成 CFAA 下的”未授权访问”——这是一个重要信号:抓取公开数据不是刑事黑客行为。值得注意的是,hiQ 后来因违反 LinkedIn 条款在合同层面面临责任,这说明 CFAA 和服务条款是两个分开的问题。
Van Buren v. United States(美国最高法院,2021)。 法院收窄了 CFAA 的”超出授权访问”条款:把你合法拥有的访问权用于不当目的,并不自动构成 CFAA 违法。这降低了许多抓取场景的 CFAA 风险敞口。
Meta v. Bright Data(美国,加州北区,2024)。 一家法院认定,抓取公开的 Facebook 和 Instagram 数据并未违反 Meta 的条款,部分原因是抓取公开数据时该抓取方没有登录。又一个数据点:公开的、未登录的抓取,比认证背后的抓取站在更坚实的地面上。
Clearview AI(欧盟/英国监管机构)。 监管机构因 Clearview 在没有合法依据的情况下抓取面部图像(个人数据)来构建一个识别数据库而对其罚款。这清楚地说明:个人数据的抓取受隐私法管辖,而那里的规则很严格。
贯穿这些案件的模式是:公开的、未登录的、非个人的、事实性的抓取是最安全的地面;认证、个人数据、以及再发布的内容,是法律风险集中的地方。
代理在其中处于什么位置?
一个常见的误解是:用代理会改变法律图景。它不会——朝任何一个方向都不会。
一个住宅代理是一个路由工具——和驱动 CDN、VPN、企业网络的是同一类基础设施。使用它是合法的。但代理不洗白合法性:把一次不合法的抓取经代理路由,不会让它变合法;把一次合法的抓取经代理路由,也不会让它变不合法。代理改变的是请求从哪个 IP发出,而不是你是否应该发它。
代理正当地帮上忙的地方,是让你在规模上负责任地运作——摊开负载,免得你猛锤单一端点——并触达地理上合适的内容。底层活动的合法性不变。(我们的可接受使用政策列明了 Shifter 上允许什么,而它正是遵循这些原则。)
留在正确一侧的实践最佳做法
你没法从一篇博客文章里得到法律上的确定性,但你可以通过把这些习惯内建进去来大幅降低风险。它们恰好也是好的工程实践。
- 抓公开数据,而不是登录背后的数据。 认证是一条清晰的界线。如果你必须登录、或绕过一道访问控制才能拿到它,就把它当作高风险并去寻求建议。
- 除非有合法依据,否则避开个人数据。 姓名、邮箱、个人资料,尤其是生物特征或敏感数据,都会触发隐私法。如果你不需要个人数据,就别采。如果你需要,就个人数据的依据和义务获取适当建议。
- 在 robots.txt 起承载作用的地方尊重它。 它不是法律,但尊重 robots.txt 和一个站点声明的意愿,是善意的有力证据,也是惯例。
- 不要拖垮目标。 限速、在合理时在闲时抓取、绝不让你的采集损害站点性能。服务器损害正是动产侵扰诉讼赖以建立的基础。(良好的抓取实践和合法行为高度重叠。)
- 提取事实,别再发布创造性内容。 价格、规格、数据点,比复制文章、图片或其它原创表达安全得多。
- 读服务条款。 知道你在同意什么,尤其是 clickwrap 条款,并掂量违反它们的合同风险。
- 留意司法辖区。 欧盟数据主体会把 GDPR 带入局——无论你在哪里运营;欧盟数据库会带入数据库权;你自己国家的法律也适用。跨境抓取会让规则手册成倍增加。
- 记录你的目的和流程。 合法、有良好记录的用途(比价、研究、监测),比含糊或激进的采集更容易辩护。
这些原则,和负责任的数据集构建与训练数据采集背后的是同一套——合规与质量,朝同一个方向使劲。
常见问题
网页抓取合法吗? 一般来说,在不绕过访问控制、不损害目标的前提下抓取公开可得的、非个人的数据,在许多司法辖区是广泛合法的。当它涉及个人数据、认证/付费墙、受版权保护的内容、服务器损害,或违反服务条款时,就在法律上有风险。它始终取决于具体事实和司法辖区。
抓取公开数据合法吗? 公开的、未登录的数据是最安全的地面——美国判例法已多次表明,抓取公开可访问的页面不太可能是”未授权访问”。但公开不等于不受限制:如果那些公开数据是个人数据,隐私法仍然适用;再发布受版权保护的公开内容,仍然引发版权问题。
违反服务条款会让抓取变得违法吗? 不构成刑事,但可能是民事问题。违反服务条款通常是一个合同问题,可能让你面临违约责任,这与计算机访问法是分开的。clickwrap 条款(你主动同意了)比 browsewrap(一个页脚链接)分量更重。
抓取个人数据合法吗? 这是风险最高的类别。个人数据会触发像 GDPR(针对欧盟境内人员,无论你从哪里抓)和 CCPA 这样的隐私法,它们通常要求合法依据并施加义务。多个监管机构已因在没有依据的情况下抓取个人数据而对企业罚款。在抓取个人数据之前,获取法律建议。
用代理会让抓取变合法或变违法吗? 都不会。代理是一个合法的路由工具;它改变的是请求从哪个 IP 发出,而不是底层活动是否被允许。它没法让一次不合法的抓取变合法,也不会让一次合法的抓取变不合法。
抓取受版权保护的内容合法吗? 提取事实(价格、规格、数字)一般是安全的,因为事实不受版权保护。复制并再发布原创创造性内容——文章、照片、视频——可能侵犯版权,除非被合理使用 / fair dealing 或许可所覆盖。
结论
网页抓取在大多数情况下是合法的——尤其当你在不绕过访问控制、不损害站点的前提下采集公开的、非个人的、事实性的数据时。法律风险住在边缘:个人数据、认证、受版权保护的内容、服务器过载、以及合同条款。保持合规的大部分,无非就是待在那些边缘之外、并以善意行事。
这一切都替代不了针对你具体项目的建议——拿不准时,找律师聊。但这些原则是一致且可学的:抓公开的、只取你需要的、别伤害目标、尊重隐私和版权、了解你的司法辖区。做到这些,一个优质的住宅代理网络就只是用来在规模上采集公开数据的负责任的基础设施——正如它本该被使用的那样。关于网页抓取本身的更多内容,先从什么是网页抓取以及它如何支持业务开始。