GooglePageRank排名新算法(二)

2008-02-23 06:23:49来源:互联网 阅读 ()

新老客户大回馈,云服务器低至5折

做抛砖引玉之用。

2-1. Google的主题性趋向

2-1-1. 关于页面级别(PageRank)及Google的旧算法出现问题的原因

页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联网的“随机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级越高,则随机网络冲浪者发现它的机率亦越高。

这种思路其实相当富有创意。一个网页的外部链接越多,则对任意网络冲浪者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导入链接就越能从链接中受益—这是由于任意网络冲浪者发现这些链接的机会就越大。

在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果用户查询关于素粒子物理学研究方面的论文(或网页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。

若互联网上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正如我们所知道的,互联网上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面级别系统考虑了所有链接,但却忽视了链接页面的主题性。

Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的搜索引擎营销商却通过在网络上到处建立充盈关键词的链接来欺骗Google的排名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些来自较高“页面级别”页的链接。

如果网站能够从毫不相关的站点购买或交易导入链接而使网站排名得到提升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果的质量开始恶化时,它是不会坐视不管的。

2-1-2. 新技术闪亮登场:主题性页面级别技术(Topic-Sensitive PageRank)

2002年,斯坦福大学的一名博士生塔赫尔。哈维利瓦拉(Taher H. Haveliwala)发表了一篇非常有意思的论文,名为“Topic-Sensitive PageRank(主题性页面级别计算系统)”。而更加有趣的是,一年之后哈维利瓦拉成了Google的一份子。

“主题性页面级别计算系统”通过对随机查询用户的随机运动增加一个“偏差”来处理基本的页面级别计算系统所存在的问题。这个新的随机查询用户具有明确的查询目的,并更感兴趣于跟进那些具有某个特定主题的相关网页上的相关链接。这是一个相对而言较为新颖的思路,它解决了搜索结果的质量性方面的一系列关键性问题。

毫无疑问,哈维利瓦拉将成为搜索引擎业界中一个举足轻重的角色。他已经在搜索技术的其它领域方面进行了一些实质性的研究工作,包括如何更有效计算页面级别方面的一些比较有趣的研究。

在最初的研究论文中,哈维利瓦拉描述了他是如何利用斯坦福大学的网络数据库,对应于ODP(开放目录)的16个顶级目录的16个主题来计算“主题性”页面级别得分。虽然该研究的主题和数据数量(8千万个网页)十分有限,但能够看出这种新系统可改善搜索结果,且具备对查询用户感兴趣于何种主题的理解能力。

就在去年,当我回过头来再阅读这篇论文时,我注意到哈维利瓦拉所描述的这种系统对搜索引擎来说还存在着两个问题。不过下面我们将会看到,这两个问题现在都能得到妥善解决了。

第一个问题是充分拓展主题的数量。要想改善搜索结果,16个主题自然是远远不够的。但由于Google的页面级别计算系统的代价非常之高,因而除非新系统能够提供一些改进的措施,否则Google不大可能实施这个新系统。但随着这一领域在过去的一年中的深远发展,因而我相信现在在主题数量上已不是大问题了。

第二个问题就是如何决定一个查询条件可能对应的主题–- 当用户输入诸如“自行车”一类的查询条件时,这个用户是想买自行车呢,还是想骑自行车旅游呢?下面我将为大家简单阐述一下Google可能会怎样匹配一给定查询条件以最恰当的主题,以及为什么一些查询条件更容易受到影响的原因。

2-1-3. 关于Applied Semantics公司及其专利技术CIRCA

Applied Semantics网络广告软件公司是互联网广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adwords关键词广告系统中,为PPC广告客户提供基于内容的广告就是采用了Applied Semantics的AdSense技术。

事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是Applied Semantics公司所拥有的专利技术CIRCA。

CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。

CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。

尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Colorado bicycle trips”,CIRCA能够将其与“Colorado”地域,“骑车”,“旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。

2-1-4. 二者的有机结合:主题性搜索引擎的实现

现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?

首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。

在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:GooglePageRank排名新算法(三)

下一篇:有趣的Google新鲜技巧玩法