用robots.txt探索Google Baidu隐藏的秘密

2008-02-23 06:55:33来源：互联网阅读 ()

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。但是，如果网站的某些信息不想被别人搜索到，可以创建一个纯文本文件robots.txt，放在网站根目录下。这样，搜索机器人会根据这个文件的内容，来确定哪些是允许搜寻的，哪些是不想被看到的。

有趣的是，这种特性往往用来作为参考资料，猜测网站又有什么新动向上马，而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

有兴趣的读者可以看一下Google的robots.txt文件，注意到前几行就有“Disallow: /search”，而结尾新加上了“Disallow: /base/s2”。

现在来做个测试，按照规则它所隐藏的地址是http://www.Google.com/base/s2，打开之后发现Google给出了一个错误提示：“服务器遇到一个暂时性问题不能响应您的请求，请30秒后再试。”

图1

但是把s2最后的数字换成1、3或者别的什么数字的时候，错误提示又是另一个样子：“我们不知道您为什么要访问一个不存在的页面。”

图2

很显然“/base/s2”是一个特殊的页面，鉴于Google曾表示过今年的主要焦点是搜索引擎，我们推测一下，所谓的“s2”是否表示“search2”，也就是传说中的第二代搜索引擎？

出于好奇，尝试了一下百度的robots.txt，比密密麻麻的Google简洁了许多，只有短短几行：

User-agent: Baiduspider

Disallow: /baidu

User-agent: *

Disallow: /shifen/dqzd.html

第一段就不用说了，第二段也遇到了同样打不开的错误，不过，按以前的资料来看，这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表，出于某些可以理解的原因做了模糊处理。

图3

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

热门词条

最新资讯

热门关注

热门标签