透过分词看谷歌和百度的收录排名究竟差在哪里

2019-03-08    来源:文随书林,blog.sina.com.cn/xuhongtao2009

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

一直以来,谷歌在国内的搜索市场上占据不了有利的位置,搜索市场份额总是居于30%左右,和百度的竞争也有很多年了,可是,始终也没有占据上风,相信业内的专家早已对这个问题研究过很多了,我的话自然没什么权威性,不过,我还是想以自己小小的博客为例,来看看谷歌到底是怎么输给百度的。

众所周知,谷歌是世界搜索巨头,百度只是在国内享有盛誉,因此,他们的侧重点是有所不同的,这源于外文和中文本质上的区别。英语也好,德语也罢,他们的文字书写都是一种字母字符语言,而汉语文字相比起来则复杂的多。搜索引擎收录网页的基本原理就是把网页的文字内容抓取,录取到数据库中,然后建立相应索引,当人们搜索时,就相当于查询数据库中的内容,然后按照索引将内容按照符合条件程度排序,输出。当然,具体的过程是很复杂的,我也没有做过很深入的了解研究,在此,我就想以一点为核心来研究一个问题,就是分词问题。

从搜索引擎的原理看出,建立索引的的前面一步工作就是分词。

什么是分词呢,举个例子:文随书林 ,这个词可以有这些分法

1.文-随书-林;2.文随-书林;3.文-随-书-林;……

当搜索蜘蛛抓取到这个词的时候,要跟自身的分词库对照,自动找到最符合的分词分法,然后按照词组建立索引。 英文的分词很简单,他是以单词分词,每个句子中的词语要以空格分开,而中文呢,远远没有那没简单了。到这里,就可以看出谷歌输在百度的一个方面了。看个例子:分别在百度和谷歌搜索“jialiu”,这是结果

这样看就很直观了。谷歌输在百度哪里?就是输在分词上!

试想,一个中文分词数据库不完善,中文分词技术落后的数据库,在国内的中文搜索,能得到广大用户的青睐吗?中文博大精深,中文分词不当,导致的只能是搜索者找不到想要的内容,久而久之,这样的搜索变成了没有意义的搜索,所以,可想而知,谷歌是该好好更新更新他的中文分词数据库了,要不,就在分词这一块,就怎么也不好跟百度竞争的啊!

国人最常用的搜索引擎是百度,所以做国内的网站,大多数的seoer都在研究百度的SEO,因为百度的分词太厉害了,这就导致在百度做一个关键词的排名难度非常大,即使是该关键词的拼音,也难以做到第一,百度总会先把拼音翻译成中文再去搜索。相比之下,在分词稍微落后的谷歌上做关键词的排名就简单多了,中文长尾关键词是最难让谷歌分词分好的,这就完全可以利用谷歌的这个弱势,关键词在百度上做不上去了,就换种思路好好做谷歌,这也是很多网站的关键词在百度排名不佳,谷歌排名却很好的原因了。

所以,研究谷歌和百度的分词,是很有利于seoer做关键词的SEO的。这里讲个方法看怎么来研究谷歌和百度的分词。

搜索引擎的基本分词可以通过快照看出来。比如,在谷歌随便输入一个词搜索,“甲型流感”,看这张图,

很明显,谷歌的分词是“甲-型-流感”。如果要做这个关键词的排名,百度强大的分词技术肯定不会把这个词拆开吧,而谷歌竟然把这个完整的词给拆开了。所以,现在做这两个关键词的思路应该是这样的:

1.百度:此关键词极其难做,原因在于这是并且只是一个完整的词,排在前面的全是网易、搜狐、新浪、腾讯等大站,想要做上去非常不容易。要做的,只能是这一个关键词的堆积。

2.谷歌:谷歌的分词是把这个完整的词分开了,这样就形成了两个词,而这两个词,加上不分开的一个词,相当于百度就是有三个关键词可以做。甲,型流感,甲型流感,哈哈,思路就出来了,有三个关键词可以做,即使是关键词的堆积,也可以堆积三个词,也就是说关键词的密度是“甲型流感”一个词的三倍,而谷歌不但不会认为你是作弊,相反会对你很友好喔!

当然,这只是一个思路,更多的百度和谷歌有趣的分词还有待细心的发掘,毕竟,这是利用了谷歌相对百度的一个劣势。

现在再通过我的博客文随书林看看谷歌和百度在收录方面的些不同吧。

我的博客开通于2009年6月份,在一月之内,博名排名在百度和谷歌始终是第一位,(当然和我博客名字在网络上的唯一性是有关的,这里暂且不论)。博客最后更新日期是8月,然后被我荒废了很长时间,近几天才开始更新。在这期间,百度排名始终第一,谷歌变动了很多次,这里暂且不讨论这期间的问题。然后,从我前几天开始更新开始看,百度收录良好,也很及时,可是,谷歌蜘蛛总是听不到我的呼唤,我的博客更新了,也不来瞧瞧(有足够外链的前提下),博文不收录了,博客排名都不知哪儿去了。

然后,我具体分析分析了下,看下面两张图:

这是一篇谷歌不收录我博文的时候我写的一篇文章,本料谷歌很快就会更新,收录,没想到时隔今日,谷歌都没有收录,这还让我花点心思好好研究了下。

外链充足而且都有最新的,权重也不比我低,所以外链一定不是主要原因。那么原因出在哪里了呢?难道是进了沙盒,想想不可能,沙盒期早就已经过了。我的博文都是原创,按理谷歌应该很买账,这次不买帐了,到底是什么原因呢?

从谷歌上没有分析出原因,百度倒是给了我灵感!看下面这张图:

注意看这张图,我是同一时间搜索的,这张图和上面那张的不同之处在于他显示了所有的搜索结果,而这次的搜索结果却显示我的原创首发博客的博文排在了第二位,这让人对百度的算法更好奇了些,纠其原因,可能是因为我的博客权重较低的原因吧,毕竟我的博客访问量和文章收录数和排在第一位的那个靠采集的垃圾站还是有些差距的。以此引申到谷歌不收录的原因,估计谷歌看我博客这么久没有更新,把我的博客编进了垃圾站的行列了吧,造成权重较低,以至于现在收录这么难。

不过,我对与谷歌spider的聪明是从不怀疑的,相信他很快就会识别出来,偶的小博客还是很有价值滴。

文章均属本人原创,转载请注明 原文地址:http://blog.sina.com.cn/s/blog_50ad291f0100gpge.html

标签: SEO 分词 文随书林 

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:写点随笔关于建站的心得——新手建站必备

下一篇:论坛被百度收录经验之谈