如果在被抓取的网站与产品之间就抓取过程达成协议,特定 Google 产品就会使用特殊爬虫。例如,AdsBot 会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*)。Google 抓取工具的常规技术属性也适用于特殊爬虫。
特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。 特殊爬虫的反向 DNS 掩码与 rate-limited-proxy-***-***-***-***.google.com 匹配。
针对 Mediapartners-Google 用户代理的抓取偏好设置会影响 Google AdSense。AdSense 抓取工具会访问参与计划的网站,以便向其提供相关广告。
Google-Safety
HTTP 请求中的用户代理
Google-Safety
robots.txt
Google-Safety 用户代理会忽略 robots.txt 规则。
受影响的产品
Google-Safety 用户代理负责处理针对滥用行为的抓取,例如对 Google 产品和服务上公开发布的链接进行恶意软件发现。因此,它不会受到抓取偏好设置的影响。
弃用的特殊爬虫
以下特殊爬虫已不再使用,此处仅作历史参考。
AdsBot Mobile Web
HTTP 请求中的用户代理
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
robots.txt
robots.txt 中的用户代理令牌
AdsBot-Google-Mobile
系统会忽略全局用户代理 (*)。
受影响的产品
针对 AdsBot-Google-Mobile 用户代理的抓取偏好设置会影响 Google Ads 检查 iPhone 网页广告质量的能力。
网页上的 Duplex
HTTP 请求中的用户代理
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36