|
2007-10-19
TAG:
什么是中文分词技术 中文分词技术是一种将连续的汉语文本序列按一定规则拆分为具有独立语义的词组的过程。中文分词是当前分词技术中的一种,分词技术从语言文本结构上来讲大致有两类:一类以英文为代表的西方语言文本,其文本中的词组以空格做为自然间隔,从语义准确性及技术复杂度来讲都比较简单。另一类是以汉语为代表的东亚语言文本,由于文本是由连续文字组成,缺乏有效的间隔,虽有句、段分隔,但在进行机器语言学习、文本语义理解分析过程中都需以词组为最小单位。因此东亚文本语言实现分词技术相对西方文本语言来讲, 更加的复杂和困难。 搜索引擎的核心是全文检索。而中文全文检索里的核心则就是中文分词技术。在网上有很多讲解中文分词的文章,而这些文章重点讲的是中文分词技术的不同的实现方法,各种方法应用的范畴不同,优劣也不尽相同。 目前中文分词主要有两种:基于词表(词典)分词【词语解析】和文字索引(N-gram)。 基于词表分词是按照词典中的最小词语单位对文本进行分割,即按词义对内容进行切分。如ICTCLAS(该分词组件问题多多 经常性出现异常BUG) 文字索引切分是不考虑文本中词的一丝,只是按照一定的字长的单位进行切分。如二元切分。 这篇文章里将不提如何如何实现中文分词的细节,而主要讨论在使用中文切词时对基于词表和文字索引两种方法的取舍。 二元切分提高了搜索关键词的命中率但降低了索引结果的相关性,而基于词表分词能提高索引结果的相关性但有可能搜索不到用户想要的内容(这是因为在切词过程中因为词表的限制没有把一些词分割错误)。 根据下面的资料得到证明:在中国切词时要以词义切词为主要的切分方法,对于其中偏差的部分采用文字索引切分发。【搜索引擎切词的目的不在于切分有意义的词,而在于切出用户需要的关键词】 关于基于词表和N-Gram的切分词比较 http://china.nikkeibp.co.jp/cgi-bin/china/news/int/int200302100112.html 我的疑问点: 1、根据以上结论,要以词义为主,为文字索引为辅的方法,那偏差的部分的标准是什么? 2、用户输入的检索短语同样需要进行切词,切词顺序和方法要和建立索引时使用的切词顺序和方法要一致,而具体如何才能做到一致?
|