小叮咚中文分词在处理大量数据的时候碰到了内存…
2008-02-23 09:35:33来源:互联网 阅读 ()
小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
最近在测试小叮咚分词应用于Weblucene搜索引擎的效果。
我们使用的源数据XML格式文件大概1.2G。
创建完成后的索引文件对比如下:
源文件:1.2G
小叮咚分词生成的索引文件:2217MB
二元分词生成的索引文件:2618MB 两者相差:401M
更详细的对比可以查看:中文分词和二元分词综合对比
下面是一份对索引文件的对比,可以看出主要的差别在于项(term)信息的差别。
deletable 4 4 _fg4.f10 19K 19K _fg4.f11 19K 19K _fg4.f12 19K 19K _fg4.f13 19K 19K _fg4.f19 19K 19K
_fg4.fdt 80M 80M 域值 _fg4.fdx 156K 156K 域索引 _fg4.fnm 135 135 标准化因子 _fg4.frq 12M 23M 项频数 _fg4.prx 26M 36M 项位置 _fg4.tii 15K 74K 项索引 _fg4.tis 1.1M 5.8M 项信息 segments 17 17
在测试中碰到了2个问题,
1、内存泄漏
内存泄漏有两种情况:
一、随着时间的推移内存使用量逐渐增加(内存泄漏?),可以通过Linux下的top命令观察到;
二、在程序运行半个小时候,内存使用量忽然增加,这时一般cpu的占用率也同时增加。
2、cpu占用率高
cpu占用率高和内存占用高成正比,就是当内存增长到150M左右的时候,cpu使用率就跳到了99.9%。
所以现在看来主要要解决内存使用量不断增加的问题。
lhelper也推荐了不少工具:
http://www.samspublishing.com/articles/article.asp?p=23618&seqNum=7&rl=1
http://tech.ccidnet.com/pub/article/c1112_a265199_p1.html
check java memory leak
tips
不知道大家在这方面有没有分享的经验。
相关连接:
[sandbox]Lucene中文分词的2个试验模块
» gRaSSland开发日记
上一篇: SubVersion 和 CVSNT在Windows下的安装及初步管理
下一篇: JSP与JavaMail (六)
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash