用户触发的抓取工具由用户启动,以在 Google 产品中执行抓取功能。例如,Google 网站验证工具会根据用户的请求执行操作,或者 Google Cloud (GCP) 上托管的网站具有允许网站用户检索外部 RSS Feed 的功能。由于是用户请求的抓取,因此这些抓取工具通常会忽略 robots.txt 规则。Google 抓取工具的常规技术属性也适用于用户触发的抓取工具。
用户触发的抓取工具使用的 IP 范围会发布在 user-triggered-fetchers.json 和 user-triggered-fetchers-google.json 对象中。用户触发的抓取工具的反向 DNS 掩码(取决于抓取工具是 Google 还是用户拥有)分别与 ***-***-***-***.gae.googleusercontent.com
或 google-proxy-***-***-***-***.google.com
匹配。
以下列表显示了用户触发的抓取工具、它们在 HTTP 请求中显示的用户代理字符串以及它们关联的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。
HTTP 请求中的用户代理 |
FeedFetcher-Google; (+http://www.google.com/feedfetcher.html) |
相关产品 | Feedfetcher 用于为 Google 新闻和 PubSubHubbub 抓取 RSS 或 Atom Feed。 |
HTTP 请求中的用户代理 |
GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/google-producer) |
相关产品 | Google 发布商中心会抓取并处理发布商明确提供的 Feed,以便在 Google 新闻着陆页中使用。 |
HTTP 请求中的用户代理 |
|
||||||
相关产品 | 根据用户请求,Google Read Aloud 会使用文字转语音 (TTS) 技术来抓取并朗读网页内容。 |
HTTP 请求中的用户代理 |
Mozilla/5.0 (compatible; Google-Site-Verification/1.0) |
相关产品 | Google 网站验证工具会抓取 Search Console 验证令牌。 |
免费申请你的专属方案
Online Consulting