防御机器人的团队与构建机器人的团队,已经在慢动作军备竞赛中僵持了大约十五年。前沿阵地每隔几年就会移动一次,每一次转变都迫使数据团队进行不同类型的投入。了解这段大致的时间线很有价值,因为当前的攻防格局从外部看并不直观,而且网络上大量的建议已经落后了两代反爬技术。
第一代:IP 封锁列表与速率限制
早期的防御手段以规则为主。请求进来,服务器记录 IP,如果该 IP 表现出明显的机器特征——每分钟请求过多、序列过于规律、User-Agent 过于简单——就会被限速或直接封禁。已知数据中心 IP 段的列表在业内流传,任何来自 AWS 或 DigitalOcean 的请求都会受到怀疑。
这个时代,“如何爬取 X”的答案几乎清一色是”用代理”,具体来说是数据中心代理。买一个 /24 网段,轮换使用,问题迎刃而解。
这套方法之所以奏效,是因为防御方当时没有更多手段。
第二代:CAPTCHA 与用户摩擦税
当 IP 层防御开始失效,防御方开始向用户施加摩擦。CAPTCHA 变得无处不在——先是图像匹配类,然后是 reCAPTCHA,再到隐形 reCAPTCHA,以及后来的 hCaptcha、Turnstile 和 Arkose。
CAPTCHA 是有效的,它能拦截简单粗暴的爬虫。但同样有效的是,它对真实用户造成的困扰足以显著降低转化率。大多数在 2017 至 2020 年间采用激进 CAPTCHA 策略的网站,此后都已有所收敛,因为摩擦带来的成本超过了机器人造成的损失。
从爬虫一侧来看,CAPTCHA 催生了一整个人工辅助解题服务行业。花几美分一次,把 CAPTCHA 排队发给低成本地区的人工面板,拿回 token,继续爬取。不够优雅,但确实管用。
第三代:浏览器与行为指纹
第三代防御向上移动了一层。网站开始对客户端本身进行指纹识别,不再只看 IP,而是看浏览器。Canvas 指纹、WebGL 签名、字体列表、音频上下文、时区、语言偏好、屏幕尺寸、可用插件、TLS 握手中密码套件的提议顺序(JA3 / JA4 指纹)、鼠标移动的时序、按键节奏——这些信号无一遗漏。
未经专门加固的 headless Chromium 会泄露数十个此类信号。防御方构建了相应的库(Fingerprint.js 及各类商业同类产品),对请求在这些维度上进行综合评分,拒绝任何看起来过于干净、过于机械、或与真实用户浏览器不符的请求。
正是从这个阶段起,爬取变得困难。单凭住宅 IP 已经不够用了。你需要驱动一个真实浏览器,或者一个经过指纹修补的高质量 headless 浏览器,还需要让它的行为看起来自然。代理依然不可或缺,但它已经从全部答案变成了技术栈中的一个组件。
第四代:网络层信誉体系
当前的前沿是对所有人成本最高的一层。防御方现在从 Cloudflare、Akamai 以及十余家规模较小的专业机构购买网络信誉数据。每个 IP 都有一个信誉评分,该评分汇聚了来自数百万个网站的信号——这个 IP 是否曾被看到登录银行账户、完成结账流程、正常打开 Gmail?还是曾被看到以暗示撞库的模式访问登录端点、以机器节奏发布评论、在周二凌晨三点爬取竞争对手的定价页面?
数据中心 IP 几乎从定义上就缺乏或拥有负面的网络历史——它没有做过正常人类会做的事情。相比之下,住宅 IP 背后有多年平淡无奇的流量记录:它所服务的家庭用它看 Netflix、玩 Steam、开 Zoom、正常浏览网页。正是这种信誉,在今天保护着爬虫的正常运作。
ISP 代理处于一个有趣的中间地带:它们由真实的住宅 ISP 分配(因此上游提供商与家庭 IP 段匹配),但被分配到数据中心并静态持有。它们比纯数据中心 IP 更难被检测,但比轮换住宅 IP 更容易暴露,定价也相应介于两者之间。
2026 年数据团队的应对之道
有几件事在这四代演进中始终成立,未来也将继续成立:
合适的代理是必要条件,但并非充分条件。 真实的住宅 IP 能帮你通过网络层的关卡。在此之后,你的客户端、请求头、TLS 指纹以及行为模式仍然需要足够可信。
封锁率是唯一重要的指标。 不是代理池规模,不是国家数量,不是宣传的功能特性。如果你的爬取能以可接受的成本返回干净的 HTML,基础设施就是有效的。如果不能,再多的营销话术也无济于事。
合适的代理取决于具体的工作流。 在庞大住宅代理池中进行逐请求轮换,适合扇出式价格监控任务。在单个住宅 IP 上保持十分钟的粘性会话,适合多页面流程。固定的 ISP IP 适合账号管理以及任何需要在数周乃至数月内保持同一身份的工作流。不要用一种工具应对所有场景。
反爬机制将持续向上层演进。 下一层很可能是边缘侧更激进的行为分析——基于机器学习的分类器,审视的是多分钟的会话形态,而非单次请求的特征。这在最大型的网站上已经投入生产。防御方的军备竞赛在持续升级,维持其中的成本也在同步增加。
坦诚的结论是:任何告诉你爬取问题已经”解决”的人都是错的。这是一个运营问题,而运营本身才是你真正付费购买的东西。住宅代理依然是基础,因为它们仍然是上游 IP 携带正确历史记录的唯一来源。其他一切都建立在这个基础之上。