关于Baidu spider抓取失败对流量的影响

2019-03-19 来源：逍遥博客

近期百度站长俱乐部的Lee发了一篇，关于百度蜘蛛（Baidu spider）抓取失败导致流量流失的原因和影响，感觉很有借鉴意义。下面是原文：

首先说明，spider的抓取失败分为两种：百度自身系统问题、外界站长问题。

这里主要是和各位站长的交流，所以着重说下“外界站长问题”导致的抓取失败，并且影响到站点从百度获得的流量问题。

目前百度spider 系统中能够统计到的失败分为几种：

1， UA/IP封禁

对于百度的ua或者IP进行封禁，会导致百度不能成功抓取您的站点，从而不能成功抓取新网页，以及将之前已经抓到的页面判定为死链，并会进行清理，这样最终导致站点获得的流量减少。此外，还会有一些冒充百度spider的抓取和采集，可以使用DNS反查方式来确定抓取来源的ip是否属于百度，防止误封禁。

参考资料：Baiduspider常见问题解答

2，压力过大的偶然封禁

首先，我们会根据站点的规模，访问量等信息，建立一个合理的站点抓取压力。但是会有一些例外，在压力控制不好的情况下，服务器会根据自身负荷进行保护性的偶然封禁，对于这样的情况，如果压力过大，请在返回码中尽量不要使用404，建议返回503（其含义是“Service Unavailable”）。这样百度spider会过段时间再来尝试抓取这个链接，如果那个时间站点空闲，那它就会被成功抓取了。

3，站点服务不稳定&更换服务

尽量的保证您的网站稳定，如果需要暂时换服务，需要暂时让旧服务能够使用一段时间，并且做301 跳转，尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长，但我们还是推荐大家这么做。

除了以上介绍的典型封禁，还有一些其他非典型的，比如：refer、ua作弊、js等，这些封禁都会导致百度失败，从而把已经抓到的页面进行删除，或者不能成功抓取新页面，这样会直接影响到网站的流量。

最后，希望站长尽量保持站点的稳定，对于暂时不想被百度抓取的页面，使用正确的返回码告知百度，如果确实不想被百度抓取或者索引，可以写robots信息告知。

此外，我们也会尽最大可能去抓取所有正常站点的内容，并且做好对站点压力的控制。

转载请注明来自逍遥博客，本文地址：http://liboseo.com/811.html

标签： Baiduspider 网站服务器不稳定百度蜘蛛

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点！
本站所提供的图片等素材，版权归原作者所有，如需使用，请与原作者联系。

上一篇:图片标签alt属性和title属性的作用

下一篇:浅谈SEO的弊端

最新资讯

热门推荐