Jcseg 2.5.0 发布,Java 轻量级开源自然语言处理包
2019-09-09 来源:OSCHINA
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.5.0更新如下:
1,修复NLP模式下部分“第xx”实体识别的position错误的bug (Reported by https://gitee.com/lionsoul/jcseg/issues/I10FKC)。
2,修复elasticsearch插件的词库autoload的bug(Reported by https://gitee.com/lionsoul/jcseg/issues/IWT2P)。
3,对于全部的切分模式增加同义词自动词性继承。
4,增加elasticsearch 7.2.0支持和lucene, solr 8.0.0支持 (Reported by https://gitee.com/lionsoul/jcseg/issues/IZ7GS)。
5,lucene,solr,elasticsearch检索同义词解决方案与Jcseg同义词方案结合。
6,修复了lucene以及其扩展产品Elasticsearch, solr等同义词以及派生词 (例如,中文数字转阿拉伯数字)的高亮的bug。
这个问题打Jcseg增加同义词以来一直都有的问题,issue中被提了很多次,感谢以下的issue和信息提供者,已经测试OK了:
- https://gitee.com/lionsoul/jcseg/issues/IM8GD
- https://gitee.com/lionsoul/jcseg/issues/IMBLD
- https://gitee.com/lionsoul/jcseg/issues/IRLA2
- https://gitee.com/lionsoul/jcseg/issues/IRLA2
- https://gitee.com/lionsoul/jcseg/issues/IXA40
- https://gitee.com/lionsoul/jcseg/issues/I11505
- https://github.com/lionsoul2014/jcseg/issues/46
7,jccseg-server更改jetty版本号为:9.4.18.v20190429。
8,词条格式调整为:“词条/词性集合/拼音/实体集合/自定义参数”。
9,少量词库优化 。
下载地址:
Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.5.0-release
Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.5.0-release
Maven仓库地址:
<dependency>
????<groupId>org.lionsoul</groupId>
????<artifactId>jcseg-core</artifactId>
????<version>2.5.0</version>
</dependency>
标签: [db:TAGG]
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。