利用WEB日志挖掘搜索引擎同网站的每一个秘密

2019-03-24 13:18:26来源： budeyan.com 阅读 ()

按奈不住激动你横眉冷对怒发冲冠：百度你是吃屎的吗？该发布的发布了，该提交的提交了，现在都半月过去了，还毫无动静！谷歌？还好了，已经过百了，可一个IP都没有啊！真不明白它们到底干什么去了，反映这么慢。还让不让老子干了？

对了，我网站是不是有问题？你帮我看看……于是，另一番歇斯底里的好戏上场了。在我看来，百度并没有吃屎，恰恰于此相反，他是靠吃我们站长强奸我们站长长大的。抛开那些牢骚不说，当我们开始对工作有疑问时，为什么不尝试自己去解决呢？

实际上，当我们开始牢骚时，暗流正在涌动，白纸黑字已经隐藏在日志里了。本文将和大家一起，通过分析网站日志，初步把握百度谷歌等搜索引擎和我们网站的交互情况。特别是网站建立初期，对我们正确评估网站，有着比较重要的指导意义。

认识几个搜索引擎爬虫

Googlebot 谷歌搜索引擎爬虫，当它第一次出现在你网站日志时，谷歌和网站的漫长交往正式开始。Googlebot 是 Google 的网页抓取机器人（有时称为“信息采集软件”）。抓取是 Googlebot 发现新网页和更新的网页以将这些网页添加到 Google 索引中的过程。

Baiduspider 百度蜘蛛，大多数中文网站辛辛苦苦，就是为了有朝一日能和这个蜘蛛搞对眼，对眼了小站也就有油水了。Baiduspider 是百度搜索引擎的一个自动程序，它的作用是访问互联网上的网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站上的网页。

Sogou+web+spider：sogou spider是搜狗搜索引擎的一个自动程序。它的作用是访问互联网上的网页，存储到本地数据库中，并从中发现新的链接，走访互联网，使用户能在搜狗搜索引擎中搜索到您网站的网页。

ia_archiver：这个是Alexa的蜘蛛爬虫，和Googlebot、Baiduspider一样，为收集用户数据而存在。

Sosospider+、HuaweiSymantecSpider、MJ12bot、+bingbot、ichiro等等不一而足。我们要对它们来访表现出热情与好客，有朋自远方来，要不亦乐乎？

搜索引擎爬虫第一次到你的网站都干什么？

就如同拜访您的朋友，到你家门口都会礼貌的敲门，吃一两次闭门羹或许尚可忍受，吃多了闭门羹，从此和你一刀两断，能否挽回交情那自要下另一番功夫了，咱们不去讨论。这里看看蜘蛛爬虫第一次到我们网站，它们会先干什么呢？用分析数据说话。

2011-10-12 14:53:22 *** GET /robots.txt *;+Googlebot/2.1;* 404

2011-10-13 02:16:58 *** GET /robots.txt * Baiduspider * 404

2011-10-13 11:12:00 *** GET /robots.txt * Sosospider+ * 404

2011-10-17 01:46:56 GET /robots.txt *;+Googlebot/2.1;* 200

上面的时间是GMT时间，我们是在东八区，加上8小时就是北京时间了。从上面可知，谷歌百度搜搜先后来本站请求robots.txt文件返回404错误，页面无法找到。17日早6点我写了一个robots.txt文件，谷歌第一时间请求该文件，返回200成功状态码。

2011-10-12 15:44:53 *** GET /index.asp *+Googlebot/2.1; * 200

2011-10-12 22:01:23 *** GET /index.asp * Sogou+web+spider/4.0 * 200

2011-10-13 01:22:19 *** GET /index.asp *;+Baiduspider/2.0; * 200

2011-10-14 12:17:47 *** GET /index2.asp *;+Googlebot/2.1;* 200

12日晚上21点左右，谷歌爬虫率先请求了我的首页，网站积极响应返回200状态码，搜狗百度紧跟其后。14日为线上测试需要，把默认首页改成index2.asp，并在上面写上蛋蛋的蛋，谷歌不负众望很快收录，三日之后还给我放了出来，让我哭笑不得。

请注意红色标记Baiduspider和+Baiduspider/2.0，前面是个先头兵？从上面结果来看，百度貌似跟着谷歌屁股走抓取反映慢半拍。我认为不然，我喜欢用Firefox编辑测试，Firefox有谷歌工具条，并习惯于登录状态。

注：数据来源于我的新站，为版面整洁直奔主题，把不相关内容删减了，未做任何改动。

搜索引擎爬虫在不遗余力抓取页面

制作了比较全面的站点地图索引和站点地图，向百度和谷歌示好，并作了提交工作。一只（一个IP）谷歌爬虫开始慢个悠悠请求着页面，18日早晨稳定在七百左右的数量级，到此博文发布位置谷歌爬虫一直再爬却不见收录。

googlebot在请求XML站点地图

百度于18日晚，放出五条以上爬虫开始大规模践踏行动，因为我发现至少五个不同颜色的标着IP的Baiduspider在迅速行动，此时谷歌在大量日志中不时蹦出一条显然处于弱势了;中间穿插的搜狗、搜搜像戏剧里的丑角，偶尔露个脸跑个场就匆匆走下舞台。

baiduspider百度蜘蛛这么多称为轰炸不为过吧？

关于蜘蛛爬虫的一些后话

对于一个新站，任何爬虫都会主动积极的去接触。百度15天才放站那是它玩游戏的习惯做事的法则。我们不可要求百度像谷歌那样怎样，也不能要求谷歌想百度如何，毕竟他们有各自不同的特点。

我们在抱怨百度或谷歌的“不作为”，大体是因为没有看到这些爬虫的辛勤劳动。这是我想起了领导隔三差五让我优化关键字，我一直努力在做，可领导一直不满意。或许这里面有着相同的存在。

手工查看日志，在网站初期是件有意思的事。因为在没有人知道你网站之前，只有蜘蛛和你在访问你的小站。慢慢的经过你的精心照顾和蜘蛛爬虫的努力工作，小站才有展露头角的机会，这过程仔细想想蕴含着一种感动。

此刻已是凌晨，抛开那些让我们省时省力的工具，喝杯咖啡紧盯屏幕看这些无聊繁杂的日志，对我来说似乎成习惯成瘾了。

本文来自：http://www.budeyan.com/tech_notes/rizhifenxi/

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：Domain.com域名默认解析换DNSPod解析图文教程

下一篇：用Yahoo Pipes聚合多个博客

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签