使用robots.txt暂禁谷歌搜索引擎爬行要慎重

2019-03-12 08:57:53来源： www.tianya5.com 阅读 ()

大家都知道，在网站上线前，就是你的网址暴露在互联网中，能引来谷歌，百度，雅虎，搜狗等等搜索引擎蜘蛛来爬前，网站的主题，关键字，描述，和网站的结构布局一定要明确。一旦蜘蛛来爬过去，你的网站主题关键字描述及结构布局，还在乱改动，这会很影响网站的收录情况和权重。这也往往是新手，常常犯的错误。网站上线后，还在乱改，结果即使收录了，也会k首页，降权重等等惩罚。

所以有人说，在网站上线前在网站的robots.txt里设置搜索引擎来爬行，等网站标题关键字布局等确定后，再解禁来爬。本人以前没有试过，新上线的一个网站天涯美容屋减肥网，这前因为做股票网，做了几天，又想主题做减肥。转来转去。以前看了有人说可以在robots.txt写禁止蜘蛛来爬，我查了网站log纪录，只有googlebot来抓过，因为上线才一天，其它搜索引擎还没来，我也没提交过。所以只在就禁止 Googlebot 将来抓取我的网站，请将以下robots.txt 文件放入您服务器的根目录：

User-agent： Googlebot

Disallow： /

结果以为没事。然后自己改版着不多了，网站上线了，提交搜索引擎，发外链，引蜘蛛，robots.txt里也解禁了googlebot的来爬，结果一周后过去了，像百度，yahoo，搜狗等等的搜索引擎蜘蛛全来过了，唯独googlebot再也没有来，我很奇怪的。一向googlebot来的很快的，我做了几个站，一般都是googlebot很快来访，baidu蜘蛛反而要一天后才来。这回一周多了还不来，我越想越不对劲。在a5论坛和推一把论坛和google的论坛里都发了提问，没人能给我正确的回答，都不知道原因。我自己也作了一点测试，用谷歌的模拟蜘蛛程序来抓我的网站，结果显示：首先我把网址，指向了自己的本机上，然后用模拟googlebot蜘蛛来抓，结果显示如下：

以下是 Googlebot 抓取该网页的过程。

以下为引用的内容：

URL： http://www.tianya5.com/

日期： Wed Feb 03 03:11:47 PST 2010

HTTP/1.1 200 OK

Connection： close

Date： Wed， 03 Feb 2010 11:11:40 GMT

Content-Type： text/html; charset=gbk

Server： Microsoft-IIS/6.0

X-Powered-By： ASP.NET，PHP/5.2.9-2

Access Denied

竟然是拒绝访问，我这下头大了，拒绝访问？我再一次检查了网站的robots.txt里面没有禁止谷歌来抓啊，网页的meta标签里也没有写禁止，我甚至把robots.txt都删掉了．再用模拟蜘蛛程序来抓仍然是拒绝访问．我再次发论坛求助，仍然没人知道原因和解决办法．然后我就写了一封信给google，信内容如下：

“我的网站，天涯屋美容减肥网本来我用这个域名开始做股票网的，做了几天，觉得股票网不行，然后就改版做这个减肥网，改版的两天时间内我在robots.txt里设置了拒绝所有蜘蛛来爬，现在我解禁了，别的蜘蛛像bd热狗yahoo都有来爬，就唯有googlebot再也没来，已经有一个星期了，刚才我用网站管理员工具里实验室里的＂像　googlebot一样爬取＂的功能测试爬取

网站首页，显示结果是：

以下是 Googlebot 抓取该网页的过程。

以下为引用的内容：

URL： http://www.tianya5.com/

日期： Wed Feb 03 03:11:47 PST 2010

HTTP/1.1 200 OK

Connection： close

Date： Wed， 03 Feb 2010 11:11:40 GMT

Content-Type： text/html; charset=gbk

Server： Microsoft-IIS/6.0

X-Powered-By： ASP.NET，PHP/5.2.9-2

Access Denied

我检查了robots.txt，甚至删掉了这个文件，仍然是access denied，请问google管理人员，这是怎么回事，如何解决，是不是因为我以前拒绝过googlebot，现在googlebot里有数据把我这个站加入了拒绝访问的名单了，还是怎么回事，急等回复，谢谢”。

信发过后，我同时也在作测试，我把天涯屋美容减肥网的网址指向自己本地主机，然后用模拟蜘蛛程序来爬，竟然能正常访问，这证明这个域名是没问题的，应该没有进我所猜想的黑名单．这下我更想不通了？难道是程序问题，程序里除了robots.txt和meta标签　里能禁止搜索引擎蜘蛛来爬，还有其它地方也能禁止？难道是虚拟主机问题？主机禁止了googlebot来爬？难道是因为我一周前禁止过googlebot来爬，就留下了某种我不知道的缓存文件，仍然禁止着？然后我又把google adsense加入了这个站，adsense能显示广告，说明adsense能来访问．但是googlebot却不能访问．

更为奇怪的是，一个小时后，也就是笔者在写这个文章前，我用谷歌网站管理员工具里的＂像googlebot一样爬取＂的功能测试时，竟然能爬行了，我看了一下log纪录，googlebot爬行了11次．这又是什么原因？是我写了信的原因？google工作人员看到了，解决了，效率这么高？还是我把网址指向了我本机，又指回来，这样来回折腾后，又好的原因？实在想不明白，唯一得到的结论是：

一定要谨慎使用robots.txt禁止搜索引擎抓取．新站没做好前，不要让自己的网址出现在互联网任何地方，也不要设置禁止蜘蛛来爬，等网站标题结构等确定好后，再去提交，引蜘蛛．本人亲身经历，希望新手引以为戒。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有