从4大微博平台的robots文件设置学到的
2019-03-24 13:16:06来源: 泉州seo 阅读 ()
其实孤藤之前看过昝辉老师的《seo实战密码》,里面讲到的robots.txt只是,个人感觉还是很详细的,也没研究过大型网站都是怎么设置的,今天想起,来分析下国内微博新浪、腾讯、搜狐、网易4大平台各自的robots.txt文件的设置,robots怎么写。
1.新浪微博
说明:允许所有搜索引擎抓取
2.腾讯微博
说明:允许所有搜索引擎抓取,除了一些系统文件。而且加了两条网站地图,一个是认证会员个人微博主页底地址,另一个是微博留言的地址。xml格式网站地图有个限制是一个地图文件里最多只能罗列5万个url,一个文件最大不能超过10m,超多的话可以新建个网站地图放,孤藤特意去查了下 腾讯微博的第一个xml地图,地图文件里有41000左右的url,2m多大。过段时间再看看腾讯是不是也是新建网站地图处理过多的url的。
3.搜狐微博
搜狐微博是最有趣的,因为前几个月兴起的快速关键词排名借助的就是搜狐微博本身的高权重,后来传说搜狐微博屏蔽了百度蜘蛛,让我们来看看这robots.txt文件。第一个部分语句是允许百度蜘蛛抓取,第二个部分语句是允许搜狗抓取,第三个部分语句是禁止所有搜搜引擎抓取。
而根据百度官方的文件说的——需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
因此最后一部分语句对百度和搜狗是无效的。也就是说搜狐微博只允许百度和搜狗来抓取页面。
这边还有一点是,我发现搜狐微博的robots.txt差不多在6月份左右时间做了修改,屏蔽出百度、搜狗外其他搜索引擎的抓取,但是其他搜索引擎确实照样索引,收录量也不断在增加,不同的是 谷歌、有道、bing仅仅只是索引,没有收录。 搜索似乎不支持robot文件还是怎么,照样收录有快照、提取描述文字。雅虎也照样收录,只是快照看不到,不能判断是否是仅仅索引。
4.网易微博
网易微博找不到robots文件
再来看看四大博客平台的收录情况:
从上面可以看到腾讯微博的收录日收录量远超其他微博,日收录排名为 腾讯微博>新浪微博>搜狐微博>网易微博。
今晚也是心血来潮,想说说这几个微博,该休息了,睡个几个小时,明早还的爬起来。本文泉州seo孤藤(www.gutengseo.com)个人愚见,欢迎拍砖。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 今日头条站长平台:头条搜索爬虫spider介绍 2019-11-29
- 百度联盟推出一站式媒体服务平台“百青藤” 2019-07-15
- 混迹豆瓣平台多年之赚钱规则揭秘 2019-04-18
- 从个人站长到程序员再到平台化经营的这几年历程 2019-04-10
- 内容平台垂直化,算法、流量、大V,谁才是价值核心? 2019-04-10
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash