指数分布的方差 指数分布的均值和方差

此文是《10周入门数据分析》系列的第9篇
想了解学习路线,可以先阅读“ 学习计划 | 10周入门数据分析 ”
本文重点介绍分析中常用的六个重要分布,并解释它们的应用 。
假设你是一所大学的老师 。在对一周的作业进行了检查之后,你给所有的学生打了分数 。你把这些打了分数的论文交给大学的数据录入人员,并告诉他创建一个包含所有学生成绩的电子表格 。但这个人却只存储了成绩,而没有包含对应的学生 。
他又犯了另一个错误,在匆忙中跳过了几项,但我们却不知道丢了谁的成绩 。我们来看看如何来解决这个问题吧 。
一种方法是将成绩可视化,看看是否可以在数据中找到某种趋势 。
上面展示的图形称为数据的频率分布 。其中有一个平滑的曲线,但你注意到有一个异常情况了吗?在某个特定的分数范围内,数据的频率异常低 。所以,最准确的猜测就是丢失值了,从而导致在分布中出现了凹陷 。
这个过程展示了你该如何使用数据分析来尝试解决现实生活中的问题 。对于任何一位数据科学家、学生或从业者来说,分布是必须要知道的概念,它为分析和推理统计提供了基础 。
虽然概率为我们提供了数学上的计算,而分布却可以帮助我们把内部发生的事情可视化 。
在本文中,我将介绍一些重要的概率分布,并会清晰全面地对它们进行解释 。
常见的数据类型
在开始详细讲述分布之前,先来看看我们会遇到哪些种类的数据 。数据可以分为离散的和连续的 。
离散数据:顾名思义,只包含指定的值 。例如,当你投骰子的时候,输出结果只可能是1、2、3、4、5或6,而不可能出现1.5或2.45 。
连续数据:可以在给定的范围内取任何值 。范围可以是有限的,也可以是无限的 。例如,女孩的体重或身高、路程的长度 。女孩的体重可以是54千克、54.5千克,或54.5436千克 。
现在开始学习分布的类型 。
分布的类型
1、伯努利分布
从最简单的分布伯努利分布开始 。
伯努利分布只有两种可能的结果,1(成功)和0(失败) 。因此,具有伯努利分布的随机变量X可以取值为1,也就是成功的概率,可以用p来表示,也可以取值为0,即失败的概率,用q或1-p来表示 。
概率质量函数由下式给出:px(1-p)1-x,其中x € (0, 1) 。它也可以写成:

指数分布的方差 指数分布的均值和方差

文章插图
成功与失败的概率不一定相等 。这里,成功的概率(p)与失败的概率不同 。所以,下图显示了我们之间比赛结果的伯努利分布 。


这里,成功的概率 = 0.15,失败的概率 = 0.85。如果我打了你,我可能会期待你向我打回来 。任何分布的基本预期值是分布的平均值 。来自伯努利分布的随机变量X的期望值如为:
E(X) = 1*p + 0*(1-p) = p
随机变量与二项分布的方差为:
V(X) = E(X2) – [E(X)]2 = p – p2 = p(1-p)
伯努利分布的例子有很多,比如说明天是否要下雨,如果下雨则表示成功,如果不下雨,则表示失败 。
2、均匀分布
对于投骰子来说,结果是1到6 。得到任何一个结果的概率是相等的,这就是均匀分布的基础 。与伯努利分布不同,均匀分布的所有可能结果的n个数也是相等的 。
如果变量X是均匀分布的,则密度函数可以表示为:

指数分布的方差 指数分布的均值和方差

文章插图
均匀分布的曲线是这样的:
你可以看到,均匀分布曲线的形状是一个矩形,这也是均匀分布又称为矩形分布的原因 。其中,a和b是参数 。
花店每天销售的花束数量是均匀分布的,最多为40,最少为10 。我们来计算一下日销售量在15到30之间的概率 。
日销售量在15到30之间的概率为(30-15)*(1/(40-10)) = 0.5
同样地,日销售量大于20的概率为 = 0.667
遵循均匀分布的X的平均值和方差为:
平均值 -> E(X) = (a+b)/2
方差 -> V(X) = (b-a)2/12
标准均匀密度的参数 a = 0 和 b = 1,因此标准均匀密度由下式给出:
指数分布的方差 指数分布的均值和方差

文章插图
3、二项分布
让我们来看看玩板球这个例子 。假设你今天赢了一场比赛,这表示一个成功的事件 。你再比了一场,但你输了 。如果你今天赢了一场比赛,但这并不表示你明天肯定会赢 。我们来分配一个随机变量X,用于表示赢得的次数 。X可能的值是多少呢?它可以是任意值,这取决于你掷硬币的次数 。