解决Word文档的检索问题,lucene我的天职是搜索
2009-05-13 02:42:27来源:未知 阅读 ()
看了车东老大的blog,针对MSWord文档的解析器,因为Word文档和基于ASCII的RTF文档不同,
需要使用COM对象机制解析。其实apache的POI完全可以做到解析MSWord文档。
我修改了别人的一个例子,算是抛砖引玉,大家不要那转头打我。
Lucene并没有规定数据源的格式,而只提供了一个通用的结构(Document对象)来接受索引的输入,
但好像只能是文本数据。
package org.tatan.framework;
import java.io.PrintStream;
import java.io.PrintWriter;
public class DocumentHandlerException extends Exception {
private Throwable cause;
/**
* Default constructor.
*/
public DocumentHandlerException() {
super();
}
/**
* Constructs with message.
*/
public DocumentHandlerException(String message) {
super(message);
}
/**
* Constructs with chained exception.
*/
public DocumentHandlerException(Throwable cause) {
super(cause.toString());
this.cause = cause;
}
/**
* Constructs with message and exception.
*/
public DocumentHandlerException(String message, Throwable cause) {
super(message, cause);
}
/**
* Retrieves nested exception.
*/
public Throwable getException() {
return cause;
}
public void printStackTrace() {
printStackTrace(System.err);
}
public void printStackTrace(PrintStream ps) {
synchronized (ps) {
super.printStackTrace(ps);
if (cause != null) {
ps.println("--- Nested Exception ---");
cause.printStackTrace(ps);
}
}
}
public void printStackTrace(PrintWriter pw) {
synchronized (pw) {
super.printStackTrace(pw);
if (cause != null) {
pw.println("--- Nested Exception ---");
cause.printStackTrace(pw);
}
}
}
}
解析MSWORD的类
package org.tatan.framework;
import org.apache.poi.hdf.extractor.WordDocument;
import java.io.InputStream;
import java.io.StringWriter;
import java.io.PrintWriter;
public class POIWordDocHandler {
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 声卡的问题 ! 2009-05-13
- 讨论一下package和port一起使用的问题。 2009-05-13
- 小弟新手有愚昧的问题请问高手! 2009-05-13
- freebsd系统共享上网问题! 2009-05-13
- nginx的index页设置问题!! 2009-05-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash