代理与爬虫 用通俗语言
每位开发者、增长团队和爬虫工程师都会遇到的术语定义、工作原理说明及常见问题解答。
代理类型
您可以购买的各种代理类型——它们是什么、适合哪些用户,以及哪种最适合您的需求。
住宅代理
住宅代理是一种代理服务器,它通过互联网服务提供商(ISP)分配给真实住宅设备的IP地址来路由你的网络流量,使你的请求看起来像真实的消费者流量。
ISP 代理
ISP代理是一种静态住宅代理,其IP地址在互联网服务提供商处注册,但托管在数据中心,为您提供具有数据中心速度和稳定性的固定住宅级IP。
移动代理
移动代理是一种代理服务器,它通过移动运营商(3G、4G或5G)分配给真实智能手机或平板电脑的IP地址路由您的流量,在反机器人系统中具有最高的信任评分。
数据中心代理
数据中心代理是一种代理服务器,其 IP 地址来自云服务或托管服务提供商,而非为真实消费者家庭提供服务的互联网服务提供商(ISP)。
轮换代理
轮换代理是一种代理服务,通过从可用IP池中抽取IP,自动为每个请求(或按固定时间间隔)分配不同的IP地址。
SOCKS5 代理
SOCKS5 代理是一种使用 SOCKS5 协议的代理服务器,可在客户端与目标之间转发任意 TCP 和 UDP 流量,而不对应用层负载进行解析或修改。
HTTP 代理
HTTP proxy 是一种能够理解并转发 HTTP(以及通过 CONNECT 方法转发 HTTPS)流量的代理服务器,运行于应用层,能够对纯 HTTP 的请求和响应数据进行检查、修改或缓存。
代理的工作原理
底层架构——IP 池、轮换、粘性会话以及每个代理网关提供的地理定向控制。
代理服务器
代理服务器是位于客户端和目标服务器之间的中间系统,代表客户端转发请求并返回目标服务器的响应,通常用于隐藏客户端 IP、控制访问或执行策略。
IP 池
IP 池是代理服务商可分配为客户流量出口 IP 的 IP 地址集合,通常跨越多个子网、ASN 和地理位置。
IP 轮换
IP 轮换是指按照预定节奏(每次请求、每个时间窗口或每个会话)切换出站请求的源 IP 地址,从而将流量分散到多个 IP 上,避免触发单个 IP 的速率限制。
粘性会话
粘性会话是一种代理配置,它将相同的出口 IP 绑定到客户端,持续时间为预定义的时间窗口或会话 ID 的生命周期,而非每次请求都轮换新 IP。
Geo-Targeting
代理服务中的地理定位功能,是指能够按国家、地区、州、城市或ASN选择出口IP的地理位置,从而使目标网站将您的流量识别为来自该特定市场。
反机器人与浏览器指纹识别
现代目标网站如何识别和拦截爬虫,以及每层检测实际检查的内容。
CAPTCHA
CAPTCHA(全自动区分计算机和人类的公开图灵测试)是一种挑战-响应系统,网站用它来区分人类访客和自动化 Bot,通常要求访客解决一个对人类来说简单但对软件来说困难的谜题。
浏览器指纹识别
浏览器指纹识别是一种网站用于识别和追踪访客的技术,通过收集浏览器的一组属性(User-Agent、屏幕尺寸、字体、插件、Canvas 哈希、WebGL 签名等),并将其组合为唯一签名。
TLS 指纹
TLS 指纹是从客户端 TLS 握手的特定结构(加密套件列表、扩展项、ALPN 值、GREASE 字节等)中提取的哈希值,用于在任何应用层数据交换之前识别底层 HTTP 客户端、浏览器或库。
无头浏览器
无头浏览器是一种在没有图形用户界面的情况下运行的真实网络浏览器,通过Chrome DevTools Protocol或WebDriver等API以编程方式控制,用于自动化测试、爬取和渲染JavaScript密集型页面。
用户代理
User-Agent是一个HTTP请求头,用于标识发出请求的客户端软件——通常包括浏览器名称、版本、操作系统和渲染引擎——例如'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36…
使用场景
人们实际使用代理的场景——定价、SEO、广告验证、品牌保护等。
网页抓取
网络爬虫是通过HTTP请求、浏览器自动化或API从网站自动提取结构化数据的技术,通常用于数据分析、监控、研究或下游应用。
SERP 抓取
SERP 抓取是指通过编程方式从 Google、Bing、Yandex 或其他搜索引擎中提取搜索引擎结果页面(SERP)数据的做法,包括自然搜索结果、广告、摘要、知识面板、本地信息包等,通常用于 SEO 监控、广告支出分析或排名追踪。
价格监控
价格监控是对竞争对手网站和市场上产品价格进行系统性、通常是自动化的跟踪,用于为动态定价、MAP执行、竞争情报和品类分析提供依据。
广告验证
广告验证是指通过程序化方式审计数字广告实际出现的位置、时间和方式——检查投放位置、可见性、品牌安全上下文、地理定向准确性和欺诈信号——通常通过使用真实消费者IP访问发布商页面并捕获页面渲染内容来实现。
品牌保护
品牌保护是对网络渠道(电商平台、社交媒体、搜索结果、付费广告及开放网络)进行系统性监控,以检测仿冒商品列表、商标滥用、冒充账号和未授权经销商,并对其采取执法行动。
标准与规则
互联网底层机制与非官方规则手册 — ASN、速率限制、robots.txt 以及绕过规则的爬虫。
ASN
ASN(自治系统编号)是由 IANA 分配给网络运营商(ISP、托管服务商、企业)的全球唯一标识符,用于 BGP 路由,以定义该运营商向互联网发布的 IP 地址范围。
速率限制
速率限制是一种服务器端防御机制,限制单个客户端(通过 IP、账户或会话识别)在给定时间窗口内可发出的请求数量,用于保护基础设施、防止滥用并确保资源的公平使用。
robots.txt
robots.txt 是位于网站根目录(例如 example.com/robots.txt)的纯文本文件,遵循爬虫排除协议,告知网络爬虫网站所有者希望或不希望其访问哪些 URL。
球鞋机器人
Sneaker bot 是一种自动化软件,专为在限量版球鞋(或其他限量商品)开售的瞬间完成购买而设计,其结账速度远超人工操作——通常需要快速的住宅代理或 ISP 代理,以规避单 IP 购买限制。
没有与您搜索匹配的术语。
请尝试更短的查询词,或浏览全部内容 26个术语.