Lucene——索引过程分析Index
2018-07-24 07:52:50来源:博客园 阅读 ()
Lucene索引过程分为3个主要操作步骤:将原始文档转换成文本、分析文本、将分析好的文本保存至索引中
一、提取文本和创建文档
从 pdf、word等非纯文本格式文件中,提取文本格式信息。建立起对应的,包含各个域的文档后,就可以对这些文本信息进行分析。
使用 Tika框架实现
二、分析文档
调用 IndexWriter对象的 addDocument方法,将数据传递给Lucene进行索引操作。
分析文本,将文本数据分割成语汇单元串,执行一些可选操作。
一起构成分析器。
三、向索引添加文档
lucene索引包含一个或多个段
segments_N
Segments 0, Segments 1, Segments 2, Segments 3,……, Segments n
每个段都是一个独立的索引。每个段,都包含多个文件 _X.<ext>
如果使用混合文件格式,那么上述索引文件,会被压缩成一个单一的文件 _X.cfs
段文件:_<N>
索引时,需要进行的基本操作(添加、更新、删除)
Donate捐赠
如果我的文章帮助了你,可以赞赏我 6.66 元给我支持,让我继续写出更好的内容)
(微信) (支付宝)
微信/支付宝 扫一扫
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
上一篇:AOP学习
下一篇:Java字节流与字符流
- 针对kafka_2.13版本测试过程中的一些坑 2020-05-23
- k8s~fluentd的configmap设置es索引前缀 2020-05-20
- 突击Java面试-分布式搜索引擎的架构原理 2020-05-19
- 如何从8 道面试题中,看出浏览器渲染过程与性能优化 2020-05-16
- GC垃圾回收器 2020-04-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash