November 2020 – Yizhou's Website

(二)漫话中文分词：Trie、KMP、AC自动机

2020年11月18日
No Comments
Post view:227 views

Trie树

在上一篇文章当中，说到了一些匹配的算法，但是算法有了，还得需要一个高效的数据结构，不能只是通过[‘中国人’, ‘中东人’]等结构来进行存放，可以想象一下，如果有几十万的词，那么这个列表的占用的内存非常大。 Trie树，也被称为前缀树，该词源自单词retrieval，发音和try相同，Trie树可为词库提供一种高效的分词数据结构，该结构本质上是一种树状数据结构，比如”中国人R… Read the rest “(二)漫话中文分词：Trie、KMP、AC自动机”

(一)漫话中文分词：最大匹配,双向最大,最小词数

2020年11月8日
No Comments
Post view:211 views

中文分词是指将文本拆分为单词的过程，而结果集合连接起来是等于原始的文本，而中文分词一直作为NLP领域的比较重要的领域，而大多数的文本挖掘都是以分词为基础，但中文不同于英文，英文每个单词是用空格分隔，整体语义上相对于中文难度低很多。而业务上一直有中文分词的需求，但是之前因为在忙于另外一个项目，所以一直没有研究。近期稍空闲开始研究了相关的中文分词算法，发现中文分词总体算比较成熟，但是其中对于未登录词或… Read the rest “(一)漫话中文分词：最大匹配,双向最大,最小词数”

理解条件概率

2020年11月3日
No Comments
Post view:259 views

样本空间（Ω）

样本空间通常指实验或随机所有可能的集合，我们常在说一个概率的时候，实际上是默认忽略掉了样本空间，比如说事件A的概率，实际上指样本空间中，事件A的数量与样本空间的占比。

比如丢硬币，硬币只有正面和反面，那么硬币的样本空间则为：

$$ \displaystyle \{正面，反面\} $$

这个时候常说的正面的概率为二分之一，实际指的是正面事件的数量与样本空间的占比，也就是$ \frac{1}{2} $。 … Read the rest “理解条件概率”