首页 > 网站运营 > 网站推广

为什么robots.txt禁止抓取却依然被收录

2019-03-05 来源：http://www.irie.cn/

有些人可能疑问，我的站点禁止所有蜘蛛访问抓取网页，为什么在搜索引擎结果中依然可以找到，并且关键词就是站点标题，今天艾瑞就来带大家分析下。

首先，所有的搜索引擎都支持robots.txt，甚至是我们伟大的百度，低估他了。也就是蜘蛛是不会违背抓取原则的，那为什么依然可以在搜索结果中找到禁止抓取的网页呢？

有些时候，我们可能看到禁止抓取的网页在搜索结果中的描述是空的，或者根本就不是网页中实际的描述，而是其他网站对其描述、评价的。其实这就是问题的答案。

因为很多时候禁止搜索引擎抓取的网站都是比较权威的网站，之前在搜索引擎中的权重极其之高，当然禁止蜘蛛抓取后，外部链接依然不受到影响。如此权威的网站不出现在搜索结果中，实为憾事，这些搜索引擎的初衷何以呈现，何以给用户最佳搜索体验。

然而，做事不能没有规则，你不让我抓取，我就不抓取，但我可以收录你，描述可取其他权威站点对其之描述，比如DOMZ、维基百科等。

在Google中的出现的案例目前还是没有找到，不过淘宝禁止百度的那点事，我还是记忆犹新。现在我们以淘宝禁止百度抓取为例来分析问题。

1.首先看看robots.txt内容，不过多说什么。

http://www.taobao.com/robots.txt

http://my.taobao.com/robots.txt

User-agent： Baiduspider

Disallow：/

User-agent： baiduspider

Disallow：/

2.可以看到www.taobao.com收录并且有描述的，但没有快照。

值得注意的是，此描述非www.taobao.com本站之描述，而是其他权威站点对其之描述。

3.大家看到my.taobao.com有收录，但是无描述

从Google搜索 my.taobao.com 获得大约 510，000 条查询结果，并且从搜索结果页面显示有很多url指向my.taobao.com，值得注意的是由于访问my.taobao.com需要登录的权限，所以一般未登录用户值得返回到登陆页面。

无描述的原因是这个二级域名没有其他权威网站对其简要描述。

4.如果有Google方面的案例，欢迎提供分析

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点！
本站所提供的图片等素材，版权归原作者所有，如需使用，请与原作者联系。

最新资讯

热门推荐