网站优化应对蜘蛛页面抓取异常

2018-07-07 00:00:00来源：未知阅读 ()

　　收录是指网页被搜索引擎抓取到，然后放到搜索引擎的库里，等到人们搜索相关词汇的时候，可以在搜索结果页展示列表看到已经收录的页面及页面信息。我们所说的“网页被收录”即能在搜索结果页看到相关的页面。反之，“网页没有被收录”问题就复杂一些，因为在搜索结果页没有看到对应的页面，并不意味着网页就没在搜索引擎的库里，或者说就没有被收录，有可能是网页针对当前的搜索词汇排名不好，在760个记录之外，因此没有得到展示。

　　收录涉及网页被搜索引擎蜘蛛抓取，然后被编入搜索引擎的索引库，并在前端被用户搜索到这一系列的过程。对SEO人员或者希望对自己网站进行优化的非专业SEO人员来说，了解页面是如何被搜索引擎收录的，了解搜索引擎的收录原理，都是极有好处的，能帮助你在进行网站SEO的时候尽量遵循收录的规律，提高网站被收录的比例。

　　搜索引擎在抓取网页的时候，可能会遇到各种情况，有的页面抓取成功，有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意，代表抓取成功与否和遇到的问题。比如我们常见的，有时候打开一个页面，页面一片空白，上面只显示404。这里的404就是一种返回码，代表当前抓取的页面已经失效，遇到显示404的页面，如果短期内搜索，蜘蛛再发现这个URL，也不会对其进行抓取。

　　有时候，会返回503，503返回码代表网站临时无法访问，可能是网站服务器关闭或者其他临时措施造成的网页无法访问，一般来说，蜘蛛还会继续抓取几次。如果网站恢复正常，URL仍然被当作正常URI。处理，如果服务器一直处于不可访问状态，那么搜索引擎就会将这些URL彻底从库中删除，这就要求我们必须维护网站的稳定性，尽量避免临时关闭的情况发生。返回码403是禁止访问状态，一般来说，如同503一样，如被多次访问仍处于禁止访问状态，就会被搜索引擎从库里面删除。

　　在返回码中，有一类需要格外注意，就是301。301代表永久性移除，当前URL被永久性重定向到另外的uRL。一般来说，因为改版等原因，部分URL需要永久被替换为新URL，就必须使用返回码301进行处理，这样能把权重等一并带过去，避免网站的流量损失。

　　返回码301的优化写法如下。

　　(1)创建一个htaccess.txt文件。

　　(2)在htaccess．txt里写好返回码30l的跳转信息。

　　假设旧的URL为abc.com，需要重定向到www.abc.com，需在文件里写如下信息。

　　RewriteEngine on

　　RewriteCond％{http_host}abc.com[NC]

　　RewriteRule^(．*)$ http://www.abc.com/$1[L，R=301]

　　(3)将htaccess.txt上传到FTP，然后将htaccess.txt修改为.htaccess。

　　需要提醒的是目前htaccess只适用于Linux系统，并需要虚拟主机支持，因此，在考虑htaccess文件处理返回码301的时候，需要查看虚拟主机是否完全支持。

　　实际上，在重定向的处理上存在多种方式，简单来说，重定向可以分为http30x重定向、meta refresh重定向和js重定向。另外，大的搜索引擎公司，比如谷歌和百度都确认支持Canonical标签，可以通过制定一个权威页面的方式，引导蜘蛛只索引一个权威页面，从实际效果上来说，也是一种间接的重定向。在实际抓取过程中，蜘蛛会对各种重定向效果进行识别。

　　重定向的方法有多种，但是从SEO角度来说，如果是永久跳转的页面，尽量在采用返回码301的跳转方式。另外，从

　　时间结果来看，百度对Canonical的支持并不如谷歌好，采用Canonical未必能得到如期效果。有些网站通过不同的路径进入同

　　一页面，可能会出现多个URL的情况，当面对这种情况时，可能需要一些处理技巧，关于Canonical的使用技术可参见本书关于Canonical的专门讲解。

　　外链等因素对搜索的排名是有影响的，那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明，即执行包括“深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等”。同时，这也说明每个策略各有优劣，在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼，我们可以认为，百度在实际抓取的时候，其实都考虑了这些因素，只是权重可能有所不同，因此，尽量提高网页PR，增加更高质量的外链，进行高质量的社会化分享，对网站的SEO工作是有积极意义的。

　　另外，针对互联网存在的大量“盗版”“采集”的网页情况，在抓取的过程中，蜘蛛会通过技术判断页面是否已经被抓取过，并对URI．不同但是实际内容相同的页面的URL进行归一化处理，即视作一个URL，。也就是告诉SEO人员，不要通过大量创建页面的方式来获得更多的搜索资源，如果页面很多，但是每个页面的内容重复性很高，或者仅是uRL中包含无效参数来实现多个页面，搜索引擎仍然把这些URI。当作一个uRL处理，即网站页面不是越多越好，通过功利的方式拼凑网页，大量部署长尾，但是页面质量堪忧，效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面，可能会影响到整站的SEO效果。

　　蜘蛛在抓取的过程实际是依据链接不断往下探索的过程，如果链接之间出现短路，蜘蛛就无法往前爬了。在真实的网站运营中，我们可以看到很多网页实际潜藏在网站后端，蜘蛛是无法抓取到的，比如没有预留入口链接，或者入口链接已经失效等，这些无法抓取到的内容和信息，对于蜘蛛来说就是一个个的孤岛，对SEO人员来说就是没有完全发挥内容的引流作用。同时，因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。

　　如何解决信息无法被抓取到的问题?几个可行的办法如下。

　　?采用搜索引擎平台提供的开发平台等数据上传通道，可以针对数据进行独立的提交。

　　?采用Sitemap提交方式。大型网站或者结构比较特殊的网站，沉淀了大量的历史页面，这些历史页面很多具有SEO的价值，但是蜘蛛无法通过正常的爬行抓取到，针对这些页面，建立Sitemap文件并提交给百度等搜索引擎是非常必要的。

　　蜘蛛在爬行网站的时候，会遵循网站的协议进行抓取，比如哪些网页可以给搜索引擎抓取，哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

　　HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户，服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息，我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。

　　HTTPS协议是一种加密协议，一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层，这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此，从SEO角度考虑，在建站的时候，尽量对页面的性质进行区分，对非保密页面进行HTTP处理，才能实现网页的抓取和收录。

本文来源：A5

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有