分类:数学与算法 相关文章

理解连续数据和离散数据

统计学中,将一种类型的数据总称为变量,而变量的数据称为观测,而变量的具体取值为观测值,比如下面的数据中,age和name都是变量,而18和’大红’都具体的取值被称为观测值。 age,name 18,’大红’ 21,’小花’ 同理,在统计学中,离散数据也被称为离散变量,连续数据也被称为连续变量,而如何区分两种变量的区别? 连续变量可以理解为取值范围在理论上是连续不断的,而离散变量则可以理解为取值范围是间断不连续的,他们之间的区别并无数量之分,都是无穷个。 比如家庭数量人口只有1、2、3、4个人口,不可能为1.2、1.8、2.4这样来表示人口,所以家庭人口是离散变量。 而年龄取值上通常为了方便而说……

继续阅读»»»

理解条件概率

样本空间(Ω) 样本空间通常指实验或随机所有可能的集合,我们常在说一个概率的时候,实际上是默认忽略掉了样本空间,比如说事件A的概率,实际上指样本空间中,事件A的数量与样本空间的占比。 比如丢硬币,硬币只有正面和反面,那么硬币的样本空间则为{正面,反面},这个时候常说的正面的概率为二分之一,实际指的是正面事件的数量与样本空间的占比,也就是1/2。 再比如说丢骰子,一个骰子有6种可能,分别对应1-6不同的数值,那么丢骰子的样本空间则为{1,2,3,4,5,6},这个时候丢到5个事件概率则为数字5在样本空间出现的次数与样本空间总数的占比。 独立事件 独立事件是指不受过去已发生的事件而影响的事件,典型……

继续阅读»»»

(一)漫话中文分词:最大匹配,双向最大,最小词数

中文分词是指将文本拆分为单词的过程,而结果集合连接起来是等于原始的文本,而中文分词一直作为NLP领域的比较重要的领域,而大多数的文本挖掘都是以分词为基础,但中文不同于英文,英文每个单词是用空格分隔,整体语义上相对于中文难度低很多。 而业务上一直有中文分词的需求,但是之前因为在忙于另外一个项目,所以一直没有研究。 近期稍空闲开始研究了相关的中文分词算法,发现中文分词总体算比较成熟,但是其中对于未登录词或者某个特定专业领域文本大部分算法分词的结果不尽人意,需要结合多种算法或者人工词典才能达到稍微好一点的效果。 中文分词的方式一共有两种,分别为: 词典分词:如正向最大匹配算法、反向最大匹配算法、双向……

继续阅读»»»

(二)漫话中文分词:Trie、KMP、AC自动机

Trie树 在上一篇文章当中,说到了一些匹配的算法,但是算法有了,还得需要一个高效的数据结构,不能只是通过[‘中国人’, ‘中东人’]等结构来进行存放,可以想象一下,如果有几十万的词,那么这个列表的占用的内存非常大。 Trie树,也被称为前缀树,该词源自单词retrieval,发音和try相同,Trie树可为词库提供一种高效的分词数据结构,该结构本质上是一种树状数据结构,比如”中国人”、”中东人”三个字符串构造的Trie树为下图,图中能够很清楚的看见,Trie树结构能够很好的节省相同前缀单词所浪费的空间,因为这两个词都是以”中”开头,所以可以使用同一个父辈节点。 除此之外,Trie树还对查询的……

继续阅读»»»