索引擎的难点包括如下几点: 2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据 3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站 4) 自动通过识别码的验证 5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理 6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力 7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接. 以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.
1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.
浅谈搜索引擎技术的难点_站长心得
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com 特别注意:本站所有转载文章言论不代表本站观点! 本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。未经允许不得转载:IDC资讯中心 » 浅谈搜索引擎技术的难点_站长心得
相关推荐
-      新手必看之网站的定位篇_站长心得
-      站长如何做好自己的客服中心_站长心得
-      买卖中小网站交易的一些细节问题_站长心得
-      为什么成功的论坛和博客无法双管其下_站长心得
-      像我一样的菜鸟站长常犯的几种错误_站长心得
-      桌面壁纸站的建设_站长心得
-      谈谈我的下载站日ip5000 月收入3000的经验_站长心得
-      如何来做好你的第一个网站_站长心得