搜索引擎之中文分词实现（java版）

2008-02-23 09:10:40来源：互联网阅读 ()

搜索引擎之中文分词实现（Java版）

前几天读到google研究员吴军的数学之美系列篇，颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目，于是乎，帖出来与大家共同学习。

分词技术在搜索引擎，信息提取，机器翻译等领域的重要地位与应用就不敖述了。步入正题：）

本切分系统的统计语料是用我们学校自己开放的那部分，大家可以在这里下载，中文字符约184万，当然这都是已切分好了的，可以用此建立一个比较小的语料库。本系统我主要分下面四个步骤完成：

下面我分别对这四个方面一一道来。

下载的已切分的语料都是形如“19980131-04-012-001/m 现实/n 的/u 顿悟/vn 却/d 被/p 描/v 出/v 形/Ng 来/v 。/w ” ，有的前面还保留了日期编号，因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句，句子简单定义为（。？！：；）这五种标点符号结尾的词串，句子首尾分别添加<BOS>和<EOS>这两个表示句子开始和结束的标记，这在2-gram建模时要用的，后面会提到。处理过程中，忽略词类信息和前面的日期信息，因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式 “<BOS>现实的顿悟