爬网错误故障排除
爬网错误故障排除
了解 Cloudflare 如何与搜索引擎爬网程序(特别是 Google 的爬网程序)交互,以及如何对爬网错误进行故障排除。
本文内容
概述
Cloudflare 将搜索引擎爬网程序和机器人列入白名单。如果您发现爬网问题或 Cloudflare 对搜索引擎爬网程序或机器人的质询,请 联系 Cloudflare 支持并且附上您按照本指南中所述方式排查爬网错误时收集的信息。
调整 Google 和 Bing 爬网速率
为优化 CDN 性能,Google 和 Bing 为正常使用 CDN 服务的网站分配特殊的爬网速率。特殊爬网速率不会给搜索引擎优化 (SEO) 和搜索引擎结果页面 (SERP) 造成负面影响。要更改针对 Bing 和 Google 的爬网速率,请按照以下指导来操作:
通过 查阅 Google 文档来更改 Google 爬网速率。
按照 Bing 文档中的指导来更改 Bing 爬网速率:
防止爬网错误
查看以下建议来防止爬网程序错误:
使用第三方工具监控您网站的性能和可用性:
请勿通过 Cloudflare Firewall 应用中的防火墙规则或 IP 访问规则来阻止 Google 爬网程序 IP 地址。
请勿通过 Cloudflare Firewall 应用中的防火墙规则或 IP 访问规则来阻止美国。
请勿在您的 .htaccess、服务器配置、 robots.txt 或 Web 应用程序中阻止 Google 或 Bing 用户代理。
请勿允许抓取 /cdn-cgi/ 目录下的文件。此路径由 Cloudflare 在内部使用,Google 抓取此路径时会遇到错误。通过 robots.txt 禁止抓取 cdn-cgi:
Disallow: /cdn-cgi/
- 确保您的 robots.txt 文件允许 AdSense 爬网程序。
- 恢复服务器日志中的 原始访问者 IP 地址。
爬网错误故障排除
如下为最常报告的爬网错误的故障排除步骤:
HTTP 4XX 错误
HTTP 4XX 错误是最常见的爬网错误类型。Cloudflare 将这些错误从您的 Web 服务器传递给 Google。这些错误可能由不同的原因造成,如 Web 服务器上缺少页面或 HTML 中存在格式错误的链接。具体解决方案视实际遇到的问题而异。
HTTP 5XX 错误
HTTP 5XX 错误表明 Cloudflare 或您的源站 Web 服务器遇到内部错误。要排查爬网错误与站点中断之间的关系,请监控您的源站 Web 服务器的运行状况。监控您的网站通过 Cloudflare 连接和直接连接源站 Web 服务器 IP 地址的运行状况,从而确定导致错误的原因在于 Cloudflare 还是您的源站 Web 服务器。
DNS 错误
根据您在 Cloudflare 上的域采用的是 Full 还是 CNAME 设置,故障排除的步骤有所不同。要验证您的域所采用的设置,请打开一个终端,再运行以下命令(将 www.example.com 替换为您的域名和主机名):
dig +short SOA www.example.com
对于采用 CNAME 设置的域,响应结果中会包含 cdn.cloudflare.net。例如:
example.com.cdn.cloudflare.net.
对于采用 Full 设置的域,响应结果的域名服务器列表中会包含 cloudflare.com 域。例如:
josh.ns.cloudflare.com. dns.cloudflare.com.2013050901 10000 2400 604800 3600
确认了域的 Cloudflare 设置后,请根据您的域设置继续执行故障排除步骤。
CNAME
联系您的主机提供商以调查 DNS 错误并提供 Google 遇到 DNS 错误的日期。此外,查看 Cloudflare System Status 页面,并观察 Google 遇到错误之日是否有任何网络中断。
Full
联系 Cloudflare 支持,并提供 Google 观察到错误的日期和时间。
请求故障排除帮助
如果上述故障排除步骤不能解决您的爬网问题,请按照以下步骤从 Google Webmaster Tools Dashboard 中以 .csv 文件形式导出爬网程序错误。在 联系 Cloudflare 支持时附上此 .csv 文件。
- 登录 Google Webmaster Tools 帐户,并浏览到受影响域名的 Health 部分。
- 单击左侧导航栏中的 Crawl Errors。
- 单击 Download,将错误列表导出为 .csv 文件。
- 将下载的 .csv 文件提供给 Cloudflare 支持。