高亮久:让百度快照保持更新只需研究200状态码
2019-09-19 来源:www.baimei.com
查看日志是seoer日常工作中的重要一环,有些站长显然还没习惯去分析繁琐的日志,但无论如何,养成经常查看日志的好习惯是必不可少的。在查看日志的时候,除了查看蜘蛛抓取次数、时间之外,还有一项很重要的内容,就是状态码的查看。今天我们着重讲述304和200状态码的应用。
首先我们先来了解一下这两种状态码分别意味着什么。当搜索引擎蜘蛛程序对网页进行抓取的时候,通常它首先需要对页面进行监控和解析,监控页面是否发生了变化,也就是是否更新。那么蜘蛛是如何快速判断页面是否变化的呢?当蜘蛛抓取监控区域内容的时候,它会与保存在搜索引擎服务期上最近一次抓取的内容进行比较,如果有差异就表明网页发生了变化,就会进行解析。
一般而言,同一个网站相对比较稳定的模板,监控区域也是固定的,比如内容区域和列表区域。当蜘蛛发现页面没有变化时,通常会返回304状态码,如果发现有变化,则返回200状态码。了解了这一点之后,我们就很容易在日志里发现蜘蛛认为我们的哪些页面发生了变化。通过对比分析,这些页面是否是新页面,变更的部位,我们可以大致明白如何让蜘蛛返回更多的200状态码,这意味着我们的网站首页能够获取最新的网页快照。
1、如何让首页保持更新
之前有看到牛人采用程序,使首页每次刷新都会出现新的内容,这一招非常迎合蜘蛛的口味,蜘蛛每次来的时候发现页面都是新的,于是不停不停的抓取,快照想不新都难。不过一般来说,大多数网站显然做不到这一点。有些网站首页采用调用论坛或者博客的形式,来不断使首页保持最新。但不幸的是,由于一些人不是很了解这么做的目的,采用了JS或者iframe调用的形式,这么做的结果,不仅无法使蜘蛛认为你的网页发生更新,而且JS和iframe调用的内容也非常不利于抓取。基本上在做无用功。请记住,无论你使用什么程序,一定要确保浏览器执行的时候是具体的内容和链接。
明白了监控区域这个概念之后,我们可以想象:在首页上如果有很多栏目列表,那么倘若我们长时间只更新一个栏目,这样做的结果会让蜘蛛认为其他列表部分是不会变化的,也就是非监控区域。这样某天当你不更新这个栏目,而更新其他栏目时,就可能出现滞后的情况,以至于蜘蛛短期内并不认为你的网页发生变化,直到完整的核对之后。这样就可能造成快照停滞的情况。请仔细理解这段话。
基于这一点,我们在更新内容的时候,尽可能保持整个网页各个区域都在均衡的变化,也就是在首页上出现的每个栏目都适当的更新内容,这样的好处是只要有一点点更新,蜘蛛都能及时发现,也就是说,我们要让网页上尽可能多的区域都成为蜘蛛的监控区域。那么只要我们网页有一点点的变化,都会让蜘蛛最快的时间内发现并进行更新。这样一般能解决快照最新的问题。
2、栏目列表页
事实上栏目列表页的快照较慢,让很多人无奈。倘若栏目列表页仅仅是列表在逐渐的刷新,的确很难让快照及时。针对它的思路是,尽可能扩充区域,除了正常的内容列表之外,右边放置大量的最新内容列表、热门点击列表、随机内容列表等等,有人认为这些板块一方面是为了尽可能让浏览者点击内容,从而有利于用户体验,同时有利于增加内链。事实上不仅仅如此,它还有利于扩充蜘蛛的监控区域,最大化保持页面的更新,让蜘蛛返回更多的200状态码。
3.内容页
内容页相对来说,监控区域更加稳定,就是内容展示部分。基本上更新的内容一下子就可以监控出来。所以网站里内容页是最容易判断是否更新的,而且有的页面是新页面,蜘蛛在索引库中完全没有记录,这样的页面几乎无须判断都可以判定为新页面,会返回200状态码。
了解了这些之后,你可以测试一下自己的网站监控区域在哪里。比如以网站首页作为实验对象,一点一点的改动,每个区域逐个更新,更新一块之后,暂停,等待蜘蛛来访,然后查看日志的状态码。这样最终你可以发现自己网站的哪些部分是蜘蛛的监控区域,从而更加有针对性的进行内容更新。事实上日志里还有更多的内容可以研究,以后我们将逐个讲解。关于304和200状态码的应用暂时就讲到这里,希望大家的日志里充满了200。
本文由百媚网@高亮久提供,网址http://www.baimei.com 欢迎转载或与我交流
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。