搜索引擎 资本游戏下的技术梦

2008-04-09 04:02:49来源:互联网 阅读 ()

新老客户大回馈,云服务器低至5折

  从微软耗资数百万美元于搜索引擎,Yahoo收购三家搜索引擎,到国内搜索引擎厂商的明争暗斗,无不是看重了搜索引擎展现的巨大商业价值。然而,资本的疯狂并不能掩盖技术的光芒。

  “越是看不见的技术,越显得深刻,因为它们已经完全融入了日常生活。”

  在北京人群川流不息的地铁通道中,一排海报格外引人瞩目,这便是刚刚在奥斯卡颁奖晚会上大出风头独得11项大奖的《指环王-王者无敌》的电影海报,仙风道骨的甘道夫和美丽的丽芙·泰勒令人不禁想走进那遥远的中世纪。海报上有很大面积用于企业宣传,8848公司的标识赫然展示其上。这是8848公司为了配合重新推出商务网站所做的宣传,其重头戏就是推出的“中文购物搜索引擎”。对此,有人说:“8848借助手里握有的两千多万美金把宝压在了搜索引擎上。”

  如此大手笔的并不只是8848,刚从软银等投资方获得了8200万美元的阿里巴巴也在不久前正式推出了传言已久的搜索产品,与新闻搜索和竞价排名搜索不同,阿里巴巴搜索的目标使用群不是普通网民,而是“网商”,主要发布商业信息和商业机会。阿里巴巴CTO吴炯表示,“我们第一次在搜索领域引进并确立了信用认证和保障体系。”

  不过,这些都是行业性的搜索领域,基于全网的搜索引擎之间的竞争更趋火爆。慧聪国际在引入国务院新闻办旗下万国桥络文化传播公司的资金后,开始运营中搜网,并将注册资本增加至750万元,公司主要的业务就是搜索引擎。

  面对这些威胁,最大的中文搜索引擎百度公司却在乐得数钱,赢利近亿元的收获使得其在搜索引擎市场上占据了绝对优势。不过,面对如此多虎视眈眈的竞争对手,百度也不敢放松,大规模的扩招正在进行,其中技术人员的比例最大。原来学习自然语言的毕业生难找工作的现状得到了彻底改变,曾在微软亚洲研究院从事自然语言研究的张跃说:“我的两个师弟今年都被百度招了进去。”

  国际上的竞争同样令人窒息,微软要进入的每个领域都会使原来的厂商战战兢兢,微软对搜索引擎的进军也伴随着大规模的招兵买马,微软亚洲研究院也成立了专门的小组,不过全球搜索引擎老大Google面对这些挑战依然充满信心,据说一位技术高手到微软一个月后却加盟了Google。Google所提供的良好工作条件和创造的搜索文化对技术人员的吸引力可见一斑。

  因此,尽管Overture创造的赢利模式猛然间使搜索引擎创造的巨大利益使资本垂涎三尺,但在市场的竞争中,技术才是最基本的保证。

  搜索引擎技术的原理

  搜索引擎技术的原理实际上很简单:一般分为三个部分,首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;其次是将抓取的网页按照关键词进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后检索生成的索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。也有人认为,搜索引擎的界面设计可以算做新的部分。这样可以逐渐提升用户的使用体验。除此之外,搜索引擎的附属功能中还包括分布式计算模块,以及一套后台监控体系。在这些部分中,最核心是的搜索结果的排序,如何把最合适的结果排到前面。因此,可以说其他的所有环节都是为最后的计算做准备的。

  但实际的检索效果受多方面因素的影响。蜘蛛的稳定性和抓全率非常重要,最早的搜索引擎只抓取静态网页,现在的搜索引擎就要求抓取更多的动态网站,因此需要对含有Script语句的网页进行解析,同时Flash的广泛应用也要求搜索引擎能够解析其中的文字和超链。海量科技一直潜心研究中文分词技术和搜索引擎技术,其总工王东胜表示:“有的网站为了防止被下载还做了很多陷阱,有时还需要在结果上进行分析,尽管这部分的技术难度不太高,但这是细活。”

  接下来的格式转换和创建索引则需要深厚的技术功底。索引的难点在于让存储数据结构尽可能的优化以适合搜索的需要。这方面,各家搜索引擎厂商的技术都不太一样。但如何尽可能减少内存、CPU占用以及读盘次数则是共同的目标。尽管有些人有很好的想法,但不一定用现在的技术都容易实现。由于搜索引擎所需要处理的数据量极其庞大,不加限制的偏移位置、属性的增加可能导致系统的过渡膨胀和检索速度的下降。王东胜说:“海量在这方面开发出了自己的独立算法,这种压缩格式不需要解压,直接就可以进行运算,这样做可以节省资源并且高效的计算。”

  多线程并发检索系统的构建也是一个壁垒,这部分不是公司找几个人就可以完成的,一个成型的分布式计算系统也不是短期内能够做到的。

  事实上,技术只是技术,所有的搜索引擎是需要运营才能体现的。即便拥有了搜索引擎全方位的技术,要做出真正可以商用的搜索引擎也还是需要不断的修正,这个工作是需要以时间为代价的。

  搜索引擎的现状

  搜索引擎已经开始取代很多门户网站在网民心目中的位置,这同它们不断扩充的服务项目有关。比如百度和中搜网推出的新闻系统,他们可以更快的集成各种新闻,而且可以不用任何的编辑人员。在这个新闻系统创建的过程中,尽管使用了搜索引擎的部分技术,但实际上同全网搜索服务是分离开的,因为新闻搜索要求的实时性非常高,而全网搜索无法满足这种需要,因此,搜索引擎的新闻聚合技术主要考虑了快速和编辑功能。而Google已经成熟的新闻邮件定制功能也获得了很多用户的喜爱。

  搜索引擎甚至开始涉及很多门户最火热的论坛,百度推出的“贴吧”就是一个例证。在百度创始人李彦宏看来,既然用户寻找同一个关键词,那说明他们关注的事情属于同一类,在搜索引擎无法提供满意结果的同时,人和人之间的交流或许可以带来更好的结果。不过从运行的结果看,除了“美女”和一些人们喜欢发表评论的关键词外,好像并不能给用户的搜索带来更多更好的效果。而Google斥重金收购的最早的Blog系统Blogger.com也是因为看到了Blog的私人空间可能给搜索带来的巨大意义。

  不过,MP3下载、Flash搜索这样的功能对于吸引网民更为实用。百度推出的MP3搜索就非常成功,百度技术副总裁刘建国说:“用户经常在网上寻找音乐资源,因此在2002年执行的闪电计划中,我们开发了mp3搜索功能,推出后,用户反响很大,迅速就把口碑建立了起来,这对百度的品牌和流量是非常有帮助的。”有位原来做过搜索引擎技术的程序员说:“我非常看好利用全网搜索技术开发的多媒体形式的搜索功能。”事实上,虽然MP3的搜索与网页搜索在技术上差别并不大,但仍然需要考虑一些死链和下载速度的评估,有时还要考虑音乐格式。刘建国说:“我们甚至需要辨别原唱和翻唱的差别。”

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:“通过串口收发短消息”Q

下一篇:网络游戏外挂编写基础