新手站长应学会如何运用禁止收录机制(一)
2019-03-22 04:18:41来源: 武汉SEO 阅读 ()
武汉seo的菜鸟可能关注更多的是自己的页面有没有被收录,而不太去关注还有禁止收录的机制,可能这时有人会问了为什么要使用这种机制啊,在哪种情况下我需要用捏?那就让我来告诉你吧,比如付费内容,还在测试阶段的网页,复制内容页面等,网站上不出现链接,或者使用JS,flash链接,使用nofollow等方法都不能保证页面一定不被收录,站长虽然没有链接到自己不想被收录的页面,但是其他网站也可能出现导入链接,导致页面被收录。当出现这些情况时我们可以使用robots文件或Meta Robots标签。
我们今天先学习一下robots文件该如何设置:
搜索引擎蜘蛛访问网站时通常会查看一下网站的根目录下是否有一个以“robots.txt”命名的纯文本文件,robots.txt的作用是用于指令搜索引擎禁止抓取网站的某些内容或者允许抓取某些制定的内容。由于有的服务器设置有点问题,robots文件不存在时会返回202状态码及一些错误信息,而不是404状态码,这有可能导致搜索引擎错误解读robots文件信息,所以就算你要允许蜘蛛抓取所有信息,也要建一个空的robots.txt文件放在根目录下,注意如下几点:
1.必须命名为:robots.txt,并且字母都是小写,robot后面加”s”。
2.robots.txt必须放置在一个网站的根目录下。如:通过http://www.***.com/robots.txt 可以成功访问到,则说明设置成功。
3.Robots文件由记录组成,记录行之间必须以空行分开。
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow。
一般格式如下:
User-agent:*
Disallow:/
以上表示robots文件禁止所有搜索引擎抓取任何信息。
下面我为大家详细讲述一下这两个函数里面可以写的参数,以及所表达的含义,以便让大家更好的掌握这种禁止收录机制的设置。
User-agent后接的参数表示下面的规则适用于哪个蜘蛛,通配符*表示所有搜索引擎。
先让我们看看蜘蛛的分类以便大家更好的了解User-agent后接的参数有哪几种类型可以填写。
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
altavista蜘蛛:scooter
lycos蜘蛛: lycos_spider_(t-rex)
alltheweb蜘蛛: fast-webcrawler
inktomi蜘蛛: slurp
有道蜘蛛:YodaoBot和OutfoxBot
热土蜘蛛:Adminrtspider
Disallow后接的参数表示告诉蜘蛛不要去抓取某些目录或者文件。填写的方式可以总结为如下几种:
如要表示阻止多个文件或目录记得一定要必须分开写,每个一行
例:Disallow:/bin/
Disallow:/temp/
Disallow:/ba/index.html
以上代码表示阻止通过之前User-agent已经设置好的蜘蛛类型抓取/bin/和/temp/
两个目录下的内容及文件/ba/index.html
而不能写成:Disallow:/bin/ /temp/ /ba/index.html
让我们来再举几个实例深入了解一下它们具体的使用方法:
例一:
User-agent:Baiduspider
Disallow:
User-agent:*
Disallow:/
以上代码表示禁止除百度外的所有搜索引擎抓取任何内容
例二:Allow表示告诉蜘蛛应该抓取某些文件,这个函数是要和Disallow配合使用的,表示某个目录下大部分不允许抓取,只允许抓取一部分,如:
User-agent:*
Disallow:/aa/
Allow:/aa/bb/
以上代码表示让所有蜘蛛不抓取/aa/目录下其他目录和文件,只抓取其/bb/目录下的内容
例三:运用$通配符,它用于匹配URL结尾的字符,如:
User-agent:Googlebot
Disallow:.jpg$
以上代码表示禁止谷歌蜘蛛抓取所有的.jpg文件
例四:运用*通配符,表示告诉蜘蛛匹配任意一段的字符,如:
User-agent:*
Disallow:/*.html
以上代码表示禁止所有蜘蛛抓取所有的.html文件
原文地址:http://www.yidunseo.com/blog/ynfx.html 转载请注明!
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
下一篇:网店运营的五个维度
- 什么是百度智能小程序单卡?如何获取智能小程序单卡 2020-03-16
- 今日头条站长平台:头条搜索爬虫spider介绍 2019-11-29
- 开发者利好!百度智能小程序推出“鱼跃扶持计划” 2019-11-13
- 新手该如何写一份运营方案? 2019-08-20
- 想成为高阶运营?先学会制定运营策略 2019-08-20
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash