前 言
=============================================
以我的使用经验,用户在使用搜索引擎方面,最不满的5个问题是:
1. 信息太少或找不到
2. 检索结果相关性差
3. 死链接
4. 速度慢
5. 用户支持不够
以下从一个普通用户的角度,简单总结了产生这些问题的可能原因,以及针对这些问题的一些已知解决方法,都是有的搜索引擎做过的。
=============================================
1.信息太少或找不到
=============================================
用户使用搜索引擎找到的信息太少或找不到的原因,主要是
1.1错别字
1.2不合理的关键字
1.3没有最新信息
1.4信息采集不够
◆◆1.1错别字:
(用户对所找主题不熟悉、同音字、网络通假字泛滥等各种原因导致的错误关键词很多,但用户很难自己发现自己输了错别字,只会怪搜索引擎找不到信息。多个搜索引擎有针对错别字的解决方案。)
--Yahoo
Yahoo的做法也是给出用户正常搜索关键词,但提示可能更正确的关键词。如搜索“britny spear”,yahoo会提示Other Spellings: Try searching for britney spear instead。但yahoo的辨别率较低,而且中文雅虎不支持。
--Directhit和NBCi
Directhit的做法是,给用户正常搜索结果,但在“相关搜索”中给出一个可能更正确的关键词。
使用overture之前的NBCi也是这种做法。
--google
Google在给用户正常搜索结果的同时,把可能更正确的关键词显示在搜索结果页顶端,用“你要找的会不会是:”来表示。如用户搜索“chrismas”,会得到“chrismas”的搜索结果和“你要找的会不会是:chrismas”
--excite
excite的Zoom In曾有检查拼写错误的功能。正确单词会出现在Zoom In中,后边跟(sp)表示。
--MSN
msn采取主动更正错误的方式,用户搜索“britny spear”,会得到改正后的“britney spear”的搜索结果。
--Ask Jeeves
Ask Jeeves也是在背后主动改正用户的拼写错误。比如用户搜索"speling" ,Ask会自动搜索 "spelling"。
--openfind和3721
openfind曾提供模糊检索,支持同音、容错,但现在已撤下。
3721的南方音和同音搜索部分解决了用户拼音不好导致的错别字。
◆◆1.2 不合理的关键字:
(用户缺乏搜索常识,不懂使用合理的关键词组合,也是找不到信息的原因之一。)
--黄反屏蔽:
有些用户不知道部分搜索引擎会屏蔽黄色和反动词,以为搜索引擎找不到信息。
--自然语言搜索:
(一些搜索引擎向用户提供不同程度的模糊检索或自然语言检索功能,有助于解决用户不懂使用合理关键词组合的问题。)
-Openfind:曾经支持简单的模糊检索。
-askjeeves:凭庞大的问题库来支持自然提问搜索。
-iphrase:基于语义库的自然语言检索。
-webtop和kenjin:可以用整段文章或整篇网页检索,现在均已关闭。
--推广搜索常识
(推广搜索常识,可以提高用户水平,减少这种错误,并培养忠实用户)
-好的搜索帮助文档:某些搜索引擎的搜索帮助写得很好。
-提示搜索技巧:
263、fm365曾在搜索频道首页经常提示搜索技巧;
google有时利用搜索结果页提示搜索小常识。
-搜索有奖比赛:新浪、赛迪的两种搜索有奖比赛
-电视宣传:
年初新浪在北京台的电视宣传
近期百度在教育台的电视宣传
-出搜索书籍:
Altavista出过一本“The Altavista Search Revolution”,当时曾有不小的影响。
“我是野虎”搜索引擎出过一本书。
-媒体文章:略
-搜索论坛:新浪搜索论坛效果显著。
--Fast(alltheweb)
Fast的“pre-analysis”功能可以给用户输入的关键词自动加双引号进行词组检索
支持自动辨别长关键词串中的重要单词、删除"noise" words再检索,该功能是默认的,但可在高级设置中关掉。
--Altavista,
(Altavita认为:当用户输入2-4个词时,他们通常在找包含所有单词的文件,但是,当5个以上的关键词,包含多个概念时,用户经常是处于’find stuff like what I describe here’,即“找一些我描述的这样的文件”的状态,这种情况下,他们并非要求搜索到的文件必须包含所有他输入的单词。)
-对于2-4个单词的关键词,altavsta会从一个大约500,000的短语词典中寻找,如果符合其中的某条短语,就把你的关键词自动当作短语来搜索,但也会返回含有所有单字的网页。
-对于5个或更多单词的关键词,altavista会先寻找符合条件的短语,也会寻找包含部分单词的网页。
◆◆1.3 没有最新信息:
(搜索引擎抓取和索引大数量级网页需要时间,因此存在信息滞后性。但用户不懂这原理,大量的用户用搜索引擎寻找新闻尤其是突发事件,一些搜索引擎采用综合搜索或对部分网页快速更新的方法初步解决了这个问题。)
--Fast(alltheweb)
-在传统搜索结果前加最多2条即时新闻,并提供“more news articles”的链接。
-提供独立的新闻搜索,对3000多个新闻网站建立快速索引,最快可检索到1分钟前的新闻。
--inktomi
-对它约1亿的高权值网页库提高索引更新频率(每9天),付费登录网页支持最快每天更新。
--新浪
-综合搜索中含有新浪自己的新闻搜索,并有“更多”链接,指向独立的新闻检索。
--雅虎
-改版后的雅虎在传统搜索结果后加上最多3条自己的新闻标题搜索,并有“更多”链接。
--google
-在传统搜索结果前加最多4条新闻,搜自著名新闻网站(英文)。
-对320万权值高或更新频率高的网页每天更新一遍索引。
-提供一个新闻资源链接网页,提供一个新闻入口网页列出分主题的当天重要新闻。
◆◆1.4 信息采集不够
(这是一个长期存在,需要长期努力的问题)
--支持更多网页类型:
frame,redirect,java,动态网页,利用linkanalysis部分索引,各种文字和符号组合的辨别索引
--支持更多文件格式:
wkx,mw,xls,flash,pdf,ppt,ps,doc,rtf ,doc,图象,视频,音频……
--提高网页库质量:
去重,减少死链接,优化网页选择策略
--及时更新:
同1.3
--增大网页库数量级:
=============================================
2.检索结果相关性差
=============================================
◆◆2.1 动态分类
(使用同一个关键词搜索,不同用户需求的信息是不同的,比如“石器时代”,他找的是历史相关信息?游戏相关信息?如果是游戏相关信息,他找的又是同名网站?官方网站?战网?游戏介绍?买游戏产品?游戏新闻?攻略?但搜索引擎通常只把一类信息排在前,导致其它信息搜索者认为相关性差。随着网页数量的迅速增长,这问题会更严重,搜索结果动态分类有助于这个“用户信息需求多元化”的问题。)
--northernlight
人工预设目录结合自动归类
--queryserver、vivisimo
主要利用结果摘要提取关键词归类
--teoma
利用超链分析对结果网页归类
--fast
利用dmoz分类目录结合自动归类
--znow
利用详细的预设目录归类
--Guidebeam
对搜索结果网页分析归类
――oingo
利用语义库分类
◆◆2.2 综合搜索
(用户搜索一次,同时看到跟该关键词相关的多种信息,也有助于改善上边提到的用户信息需求多元化的问题)
--sina:一次提供目录、网站、网页、新闻、商品等多种搜索结果。
--britannica:一次搜索,同时显示产品、书籍、网站、百科全书、杂志、录音带等的搜索结果。
--google:提供字典、分类目录、新闻、股票、电话、地图搜索等,根据关键字显示不同内容。
◆◆2.3 重复信息
--不同网址的相同内容引起的重复
百度:内容类聚
--网站互相抄袭引起的内容重复
Google:相似内容类聚
◆◆2.4 摘要显示影响感觉上的相关性
--动态摘要:
Google:动态摘要使搜索结果看上去更相关。
(注:2002年3月,百度已升级为动态摘要)
--结合分类目录摘要:
-google对搜索结果中被dmoz收录的网页,加上了dmoz人工编辑的网站摘要,与动态摘要并存。
-openfind利用蓝帆的分类目录给出部分网页搜索结果的摘要。
--网页截图
girafa、searchshots除文字摘要外还提供一张网页截图,用户得到视觉化摘要,更易辨别选择搜索结果。
◆◆2.5 中文切词
(中文切词不准使搜索结果相关性差,是一个长期的、渐进的问题)
--百度的人名中文切词专利
◆◆2.6人工指定部分搜索结果
(人总比电脑更理解人的需求)
--有些搜索引擎对热门关键词的搜索结果作过人工干预,所以这些词的检索结果相关性比其它自动生成的要好。
◆◆2.7 网站直达
--overture的Quick Hit
overture的排名谁都可以买,但很多用户检索“yahoo”“aol”等网站名时是想上那个网站,因此,overture对这种有官方网站的关键字,在检索结果前增加了一条“Quick Hit”,用户点击后可直达官方网站。
--msn的realname
分类目录的信息量小,检索结果的相关性无法跟网页检索一样靠算法提高,所以msn在分类目录搜索结果前,使用了realname,使搜索网站名的用户可以直达相关网站。
--aol
aol在分类目录搜索结果前,用recommended sites 的形式提供官方网站链接。,
◆◆2.8 相关性算法
--超链分析的提升(Link popularity、anchortext、context)
超链分析先天缺陷:使小站、新站、专业站处于不利地位。一个专业小网站,它的内容再好,因为不能迅速得到大量高质量的超链,难以得到合适的排名。
--内容分析的提升
--User popularity
(有些搜索引擎利用用户倾向统计来排序)
-directhit:按搜索结果点击率及网站停留时间排序
-hotlinks、blink:收集用户收藏夹按网站被收藏率排序
-top9:根据网站访问人数排序
-google:曾分析约1成的搜索结果点击,据以调整相关性算法。利用advanced toolbar收集用户访问习惯作分析
◆◆2.9 收集用户反馈
--overture、britannica
它们在每个搜索结果页上放了一个浮动调查,让用户以“――、-、+-、+、++”5档评选当前搜索结果的相关性,然后根据统计结果,及时研究和改善受到劣评的搜索结果页。
--google
英文版允许用户对当前搜索结果页发表意见。有5个意见选项可选择:Off-topic、Offensive、Described poorly、Too similar to one another、The page I was looking for wasn’t listed in the results,另外,用户可写上正在寻找的url或描述想找的内容。在Google的新版toolbar也提供了相似的搜索结果用户投票功能。
=============================================
3.死链接
=============================================
◆◆3.1 网页快照
--Alexa、google、daypop等搜索引擎有应用
◆◆3.2 网页即时预览
--vivisimo、wisenut:
点击一条搜索结果链接后,在当前窗口中开一个frame,预览该网页。可减少用户从死链接受到的挫折。
◆◆3.3 搜索结果自动播放
--metacrawler、metor、robocast:
用户搜索后,如果选择自动播放,可以看到搜索结果网页一个一个的轮流打开,可设定每个网页停留时间、可随时打开新窗口、可选定几个网站后打开自动播放。省去了用户不断点击的麻烦。
=============================================
4.速度慢
=============================================
◆◆4.1 检索速度慢
--利用cache
◆◆4.2 搜索结果网页打开速度慢
--简化网页设计
--加快网页传输
=============================================
5.用户支持
=============================================
◆◆5.1 ilor
(在ilor检索后,用户把鼠标移到搜索结果链接上后,鼠标旁出现4个选项)
--go now-anchor here:
打开该项结果,并用浮动小窗口记录该结果的位置,任何时刻点一下浮动小窗口就可回来,省去经常按后退的麻烦。可打开多个anchor。
--onpen in new window :
在新窗口中打开并显示此项搜索结果,
--open in background:
新窗口中打开,但显示在当前窗口背后,以免影响当前窗口视线。
--put in my list:
在弹出的浮动小窗口中收藏本链接,以便其它时间再看。可收藏多个链接。
◆◆5.2 搜索专题:
(人工制作一个介绍某领域优秀网站和搜索常识的专题,对用户颇具帮助)
--About:700多个搜索专题
--Northernlight:26个Special Editions
--263搜索:游戏、性爱、mp3、教师节、桌面等搜索专题
◆◆5.3 相关搜索
--baidu、altavista、webtop、nbci的相关搜索
――excite的zoom in
――askjeeves的相关问题
◆◆5.4 toolbar,浏览器 button,地址栏搜索插件
--toolbar:google、openfind
--浏览器button:google
--地址栏搜索插件:3721
◆◆5.5 类似网页
――alexa:为alexabar、ie、netscape提供的相关网站功能
--teoma:Experts’ link 也具有寻找同类网页的功能
--google:类似网页
◆◆5.6 网站直达功能
--手气不错
◆◆5.7 提供高级检索界面
--略
◆◆5.8 开放高级搜索语法
--站内搜索、标题搜索、短语检索、时间限制、inurl较常用
◆◆5.9 个性化设置(preference)
--允许用户自己设定并记忆搜索引擎设置:fast、altavista、wisenut、google
◆◆5.10 搜索结果排序方式可选
--zeal、nbci的分类目录搜索,曾经可选择按照relevance、new、popular、link任一规则排序。
--northernlight可按时间排序。
◆◆5.11 email订阅搜索结果
--profusion、northernlight:
订阅指定关键字的搜索结果,有更新的搜索结果会自动email发送。
◆◆5.12 翻译其它语言搜索结果
--altavista、google:提供对搜索结果的翻译
◆◆5.13 允许选用其它搜索引擎
--yahoo、google、ask:在搜索结果页上提供其它搜索引擎的链接,用户点击后,调用其它搜索引擎检索当前关键词。
◆◆5.14用户交流
--节日问候
--专用email、论坛、反馈提交入口
--提供免费提交网页入口、及robot.txt教学文档
◆◆5.15 关键词
--yahoo、google:定期展示热门关键词统计结果
--chinaren、21cn:曾滚动显示其它用户当前搜索关键词