连续数据和离散数据

连续数据和离散数据在如今的机器学习当中非常常见,作为一个非专科的人,如果只是奔着如何去使用相关的机器学习框架,到可以简单了解即可使用。而如果想要深入了解,还得下一番功夫来补习一下相关的功课。

文章内容是我的学习笔记,既然是学习笔记所以主观意识就比较强烈,内容在写这篇文章的时候不一定正确。

统计学中,将一种类型的数据总称为变量,而变量的数据称为观测,而变量的具体取值为观测值,比如下面的数据中,age和name都是变量,而18和’大红’都具体的取值被称为观测值。

age,name
18,’大红’
21,’小花’

同理,在统计学中,离散数据也被称为离散变量,连续数据也被称为连续变量,而如何区分两种变量的区别?

连续变量可以理解为取值范围在理论上是连续不断的,而离散变量则可以理解为取值范围是间断不连续的,他们之间的区别并无数量之分,都是无穷个。

比如家庭数量人口只有1、2、3、4个人口,不可能为1.2、1.8、2.4这样来表示人口,所以家庭人口是离散变量。

而年龄取值上通常为了方便而说是18岁、17岁、30岁,但是如果按照实际取值,则可以取为18.32、17.55、30.67岁,17.55岁则表示年龄为17岁6个月18天,而且出生的时间还可以精确到小时、分、秒等单位,所以年龄为连续变量。

参考资料

  1. 关于连续和离散的理解
  2. 定量和定性变量、连续和离散变量,到底怎么分?
  3. 图解概率笔记:葉丙成概率公开课

Leave a Reply

Your email address will not be published. Required fields are marked *