Category Archives: 数学世界

条件概率

最近在了解朴素贝叶斯定理,发现自己对于这块的知识欠缺较多,在阅读一些关于贝叶斯文章的时候整理出来了非常多的名词,其中条件概率最为重要,所以也单独拿出一篇文章来记录。

本人不是相关专业,所以尽可能的查阅相关的资料并以自己能理解的方式进行记录,如有不专业或者问题之处,还请嘴下留情。

样本空间(Ω)

样本空间通常指实验或随机所有可能的集合,我们常在说一个概率的时候,实际上是默认忽略掉了样本空间,比如说事件A的概率,实际上指样本空间中,事件A的数量与样本空间的占比。

比如丢硬币,硬币只有正面和反面,那么硬币的样本空间则为{正面,反面},这个时候常说的正面的概率为二分之一,实际指的是正面事件的数量与样本空间的占比,也就是1/2。

再比如说丢骰子,一个骰子有6种可能,分别对应1-6不同的数值,那么丢骰子的样本空间则为{1,2,3,4,5,6},这个时候丢到5个事件概率则为数字5在样本空间出现的次数与样本空间总数的占比。

独立事件

独立事件是指不受过去已发生的事件而影响的事件,典型的例子就是抛硬币,不管你抛多少次硬币始终正面或反面的概率为0.5,而该硬币的样本空间如下:

独立事件的概率计算公式为如下:

事件发生的概率(P) = 事件在样本空间中的数量 / 样本空间的事件总数

比如用抛硬币的例子,计算正面的概率则为:

而除了单个独立事件,有些时候也会求多个独立事件的概率,而多个独立事件的概率则是每个独立事件发生的概率的积。

比如掷3次骰子都为6的概率是多少?需要注意因为掷骰子是一个独立事件,即每次掷的骰子样本空间都一样,并且没有因为第一次掷骰子的结果会影响到下一次。

骰子的样本空间为下,从中能够得到单次掷骰子为6的概率为1/6:

而这个时候只需要将三次掷骰子的概率相乘就得到了三次都为6的概率:

Continue reading

连续数据和离散数据

连续数据和离散数据在如今的机器学习当中非常常见,作为一个非专科的人,如果只是奔着如何去使用相关的机器学习框架,到可以简单了解即可使用。而如果想要深入了解,还得下一番功夫来补习一下相关的功课。

文章内容是我的学习笔记,既然是学习笔记所以主观意识就比较强烈,内容在写这篇文章的时候不一定正确。

统计学中,将一种类型的数据总称为变量,而变量的数据称为观测,而变量的具体取值为观测值,比如下面的数据中,age和name都是变量,而18和’大红’都具体的取值被称为观测值。

age,name
18,’大红’
21,’小花’

同理,在统计学中,离散数据也被称为离散变量,连续数据也被称为连续变量,而如何区分两种变量的区别?

连续变量可以理解为取值范围在理论上是连续不断的,而离散变量则可以理解为取值范围是间断不连续的,他们之间的区别并无数量之分,都是无穷个。

比如家庭数量人口只有1、2、3、4个人口,不可能为1.2、1.8、2.4这样来表示人口,所以家庭人口是离散变量。

而年龄取值上通常为了方便而说是18岁、17岁、30岁,但是如果按照实际取值,则可以取为18.32、17.55、30.67岁,17.55岁则表示年龄为17岁6个月18天,而且出生的时间还可以精确到小时、分、秒等单位,所以年龄为连续变量。

参考资料

  1. 关于连续和离散的理解
  2. 定量和定性变量、连续和离散变量,到底怎么分?
  3. 图解概率笔记:葉丙成概率公开课