(一)漫话中文分词:最大匹配,双向最大,最小词数
中文分词是指将文本拆分为单词的过程,而结果集合连接起来是等于原始的文本,而中文分词一直作为NLP领域的比较重要的领域,而大多数的文本挖掘都是以分词为基础,但中文不同于英文,英文每个单词是用空格分隔,整体语义上相对于中文难度低很多。 而业务上一直有中文分词的需求,但是之前因为在忙于另外一个项目,所以一直没有研究。 近期稍空闲开始研究了相关的中文分词算法,发现中文分词总体算比较成熟,但是其中对于未登录词或者某个特定专业领域文本大部分算法分词的结果不尽人意,需要结合多种算法或者人工词典才能达到稍微好一点的效果。 中文分词的方式一共有两种,分别为: 词典分词:如正向最大匹配算法、反向最大匹配算法、双向……
继续阅读»»»