使用Lucene进行全文检索(一)---处理索引
2008-02-23 09:29:36来源:互联网 阅读 ()
注:程序用会到一些工具类,不在此列出,用户可以自己实现.
package com.jscud.Website.newsinfo.bean;
import Java.sql.Timestamp;
import com.jscud.util.DateTime;
import com.jscud.util.StringFunc;
import com.jscud.website.newsinfo.NewsConst;
/**
* 一个新闻.
*
* @author scud(飞云小侠) http://www.jscud.com
*
*/
public class NewsItem
{
private int nid; //新闻编号
private int cid; //类别编号
private String title;//标题
private int showtype; //内容类型:目前支持url和html
private String content;//内容
private String url;//对应网址,如果内容类型是url的话
private Timestamp addtime; //增加时间
private int click; //点击数
//对应的get,set函数,较多不在列出,可以使用工具生成
//......
/**
* 按照类型格式化
*/
public String getShowContent()
{
String sRes = content;
if(showtype == NewsConst.ShowType_HTML)
{
}
return sRes;
}
public String getTarget()
{
if(showtype == NewsConst.ShowType_URL)
{
return "_blank";
}
else
return "";
}
/**
* 静态Html文件的路径及其名字
*/
public String getHtmlFileName()
{
int nYear = DateTime.getYear_Date(getAddtime());
int nMonth = DateTime.getMonth_Date(getAddtime());
String sGeneFileName =
"/news/" getCid() "/" nYear "/" nMonth "/" getNid() ".htm";
return sGeneFileName;
}
/**
* 静态Html文件的路径
*/
public String getHtmlFilePath()
{
int nYear = DateTime.getYear_Date(getAddtime());
int nMonth = DateTime.getMonth_Date(getAddtime());
String sGeneFilePath =
getCid() "_" nYear "_" nMonth;
return sGeneFilePath;
}
}
可以看到,我们需要对标题和内容进行检索,为了这个目的,我们首先需要来研究一下lucene.
在Lucene中,如果要进行全文检索,必须要先建立索引然后才能进行检索,当然实际工作中还会有删除索引和更新索引的工作.
在此之前,介绍一个最基本的类(摘抄自http://www.blogjava.net/cap/archive/2005/07/17/7849.html):
Analyzer 文件的分析器(听起来别扭,还是叫Analyzer好了)的抽象,这个类用来处理分词(对中文尤其重要,转换大小写(Computer->computer,实现查询大小写无关),转换词根(computers->computer),消除stop words等,还负责把其他格式文档转换为纯文本等.
在lucene中,一般会使用StandardAnalyzer来分析内容,它支持中文等多字节语言,当然可以自己实现特殊的解析器.StandardAnalyzer目前对中文的处理是按照单字来处理的,这是最简单的办法,但是也有缺点,会组合出一些没有意义的结果来.
首先我们来了解建立索引,建立索引包含2种情况,一种是给一条新闻建立索引,另外的情况是在开始或者一定的时间给批量的新闻建立索引,所以为了通用,我们写一个通用的建立索引的函数:
(一般一类的索引都放在一个目录下,这个配置可以在函数中定义,也可以写在配置文件中,通过参数传递给函数.)
/**
* 生成索引.
*
* @param doc 目标文档
* @param indexDir 索引目录
*/
public static void makeIndex(Document doc, String indexDir)
{
List aList = new ArrayList();
aList.add(doc);
makeIndex(aList, indexDir);
}
/**
* 生成索引.
*
* @param doc 生成的document.
* @param indexDir 索引目录
*/
public static void makeIndex(List docs, String indexDir)
{
if (null == docs)
{
return;
}
boolean indexExist = indexExist(indexDir);
IndexWriter writer = null;
try
{
StandardAnalyzer analyzer = new StandardAnalyzer();
//如果索引存在,就追加.如果不存在,就建立新的索引.lucene要是自动判决就好了.
if(indexExist)
{
writer = new IndexWriter(indexDir, analyzer, false);
}
else
{
writer = new IndexWriter(indexDir, analyzer, true);
}
//添加一条文档
for (int i = 0; i < docs.size(); i )
{
Document doc = (Document) docs.get(i);
if (null != doc)
{
writer.addDocument(doc);
}
}
//索引完成后的处理
writer.optimize();
}
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash