【转】jieba.NET与Lucene.Net的集成
2018-06-22 07:53:06来源:未知 阅读 ()
首先声明:我对Lucene.Net并不熟悉,但搜索确实是分词的一个重要应用,所以这里还是尝试将两者集成起来,也许对你有一参考。
看到了两个中文分词与Lucene.Net的集成项目:Lucene.Net.Analysis.PanGu和Lucene.Net.Analysis.MMSeg,参考其中的代码实现了最简单的集成:jiebaForLuceneNet。下面给出简单的介绍。
1、JiebaTokenizer
主要的集成点是自定义一个Tokenizer的子类,此时必须要实现它的抽象方法IncrementToken,该方法用于对文本流中的文本生成的token进行遍历,这正是分词组件发挥作用的地方。
public override bool IncrementToken() { ClearAttributes(); position++; if (position < tokens.Count) { var token = tokens[position]; termAtt.SetTermBuffer(token.Word); offsetAtt.SetOffset(token.StartIndex, token.EndIndex); typeAtt.Type = "Jieba"; return true; } End(); return false; }
termAtt和offsetAtt所在的两行代码需要用到每一个token的词本身、起始索引和终止索引,而这三个值恰好是JiebaSegmenter.Tokenize方法所实现的,所以只要在初始化JiebaTokenizer时使用:
tokens = segmenter.Tokenize(text, TokenizerMode.Search).ToList();
就可以得到所有分词所得的token,另外TokenizerMode.Search参数使得Tokenize方法的结果中包含更全面的分词结果,比如“语言学家”会得到四个token,即“[语言, (0, 2)], [学家, (2, 4)], [语言学, (0, 3)], [语言学家, (0, 4)]”,这在创建索引和搜索时都很有帮助。
2、JiebaAnalyzer
Tokenizer类实现分词,而添加索引和搜索需要的是Analyzer,JiebaAnalyzer只要调用JiebaTokenizer即可。
public override TokenStream TokenStream(string fieldName, TextReader reader) { var seg = new JiebaSegmenter(); TokenStream result = new JiebaTokenizer(seg, reader); // This filter is necessary, because the parser converts the queries to lower case. result = new LowerCaseFilter(result); result = new StopFilter(true, result, StopWords); return result; }
除了JiebaTokenizer,JiebaAnalyzer还会用到LowerCaseFilter和StopFilter。前者可将索引和搜索的内容正则化,忽略大小写,后者则过滤掉停用词。这里使用的停用词列表合并了NLTK的英文停用词和哈工大的中文停用词。
3、创建索引和搜索
创建索引时,IndexWriter要使用JiebaAnalyzer的实例:
var analyzer = new JiebaAnalyzer(); using (var writer = new IndexWriter(Directory, analyzer, IndexWriter.MaxFieldLength.UNLIMITED)) { // replaces older entry if any foreach (var sd in data) { AddToLuceneIndex(sd, writer); } analyzer.Close(); }
搜索的时候,先将用户的输入分词:
private static string GetKeyWordsSplitBySpace(string keywords, JiebaTokenizer tokenizer) { var result = new StringBuilder(); var words = tokenizer.Tokenize(keywords); foreach (var word in words) { if (string.IsNullOrWhiteSpace(word.Word)) { continue; } result.AppendFormat("{0} ", word.Word); } return result.ToString().Trim(); }
比如如果用户输入的是“语言学家”,那么该函数的返回值是“语言 学家 语言学 语言学家”,为后面的搜索做好准备(另外,我们还可以为每个词加上一个*,这样只要部分匹配就可以搜到结果)。最后的搜索实现是:
private static IEnumerable<News> SearchQuery(string searchQuery, string searchField = "") { if (string.IsNullOrEmpty(searchQuery.Replace("*", "").Replace("?", ""))) { return new List<News>(); } using (var searcher = new IndexSearcher(Directory, false)) { var hitsLimit = 1000; //var analyzer = new StandardAnalyzer(Version.LUCENE_30); var analyzer = GetAnalyzer(); if (!string.IsNullOrEmpty(searchField)) { var parser = new QueryParser(Version.LUCENE_30, searchField, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, hitsLimit).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Dispose(); return results; } else { var parser = new MultiFieldQueryParser(Version.LUCENE_30, new[] { "Id", "Title", "Content" }, analyzer); var query = ParseQuery(searchQuery, parser); var hits = searcher.Search(query, null, hitsLimit, Sort.RELEVANCE).ScoreDocs; var results = MapLuceneToDataList(hits, searcher); analyzer.Close(); return results; } } }
这里的searchField参数可以指定特定字段进行搜索,如果为空,则对所有字段进行搜索。至此实现了最基本的集成。
JiebaTokenizer、JiebaAnalyzer的实现和示例代码都可在jiebaForLuceneNet找到。
4、Luke.Net
Luke.Net可以查看Lucene.Net生成的索引内容,这在开发和调试Lucene的时候会特别有帮助。
参考:
Lucene.Net ultra fast search for MVC or WebForms site
Lucene.Net – Custom Synonym Analyzer
https://github.com/JimLiu/Lucene.Net.Analysis.PanGu
http://pangusegment.codeplex.com/wikipage?title=PanGu4Lucene
http://luke.codeplex.com/releases/view/82033
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:二级目录下配置mvc访问404
下一篇:.Net Web开发技术栈
- ASP.NET Core集成微信登录 2020-02-17
- webapi 集成swagger 2019-05-23
- SSO集成方案[随笔] 2019-04-12
- VS2013调试的时候出现 “检测到在集成的托管管道模式下不适 2018-06-22
- asp.net 下的中文分词检索工具 - jieba.net 2018-06-22
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash