四:变量的分布及典型模型
简要地说,概率分布就是以变量的取值为x轴,相应的概率为y轴而形成/绘制的一种图形
前面说过,社会统计学主要研究的变量类型是定类变量,而定类变量又可分为离散型随机变量和连续型随机变量;二项分布是离散型随机变量的典型模型,而正态分布是连续型随机变量的典型,下面予以详细介绍
一:二项分布
(一) 情境引入
连续掷质地均匀的骰子3次,正面只出现一次的概率是多少?
思路:穷举法/枚举法,事实上相当于古典概型(即基本事件发生的概率都相等)
三次投掷的结果互不影响,而正面仅出现一次,则要么第一次正面朝上,要么第二次或第三次。若用1表示正面朝上,0表示反面朝上,则一共的可能是:
000
001
010
011
100
101
110
111
但是,能不能进一步简化呢?可以;可以这样思考:题目仅要求正面出现一次,却并没有限定是在哪一次投掷中出现正面。于是,排列数与组合数派上了用场。(见补充一)
(二)N次独立试验中,如果每次试验只有两种可能结果,事件A发生的概率P(A)=p,事件A不发生的概率P( )=q(即1-p),则n次独立试验中事件A发生次数 的概率分布为:


公式解读(请结合前面的实例进行理解):
一种理解方式是:
事实上,在这么多情况中,其实可以用一个变量来把握:那就是p概率对应事件发生的次数(在前面的实例中,就是1出现的次数)
x,就是要求的事件中,x次单个事件发生的叠加,因为这n次试验中,每次的结果互不影响,因此是乘法关系,所以最重要的部分是
但是,不能漏掉后面的部分。一些人可能以为算出 就万事大吉了;不错,确实如此,但这是不完整的:至少有一条是:我们要进行n次试验,而你只进行了x次(x<n),就等于说试验还没有结束,是不完整的。那么在剩下的(n-x)次试验中,相应的概率就是(1-p),即q。也是乘法
最后,如果把 看作一个整体,那么, 就可以看作是权重;前面谈到过,组合数是与顺序无关的,而只根据 是不知道试验结果的分布的(以前面的例子来说,就是001和010在不考虑 的情况下,就是一种情况)
二:正态分布

自然界和人类社会中,受多个变量影响的因变量往往服从(或近似服从)正态分布。


为样本均值,

为标准差,

是方差
标准化(z变换):

将每一原始变量标准化之后,新变量就服从标准正态分布。但要注意的是:z变换不能使非正态分布转化为正态分布,但是经过这样的变换后,

,

是成立的

不过,正态分布的y轴实际上并不是相应的概率,而是像直方图那样将频率除以组距所得到的(假定原始分布含分组);
但是:前面提到过,正态分布的自变量是连续分布的,但分组的情况下并非如此;真正的正态分布是将组距无限细分得到的,其曲线因而是平滑的,称为分布密度曲线或概率密度曲线


那么,正态分布的概率怎么求?首先,求自变量落在某一区间的概率,就是用曲线在该区间下的面积(用积分的方法得出)与曲线下总面积(也就是1)的比值。因此,曲线的数值不表示概率,而曲线下的面积表示概率。




实际中一般不会求某一点的概率,因为其不具有实际意义,但并非不能求;如果笔者没有记错,相应的方法是求极限
经过z变换得到的数值,称为标准分,标准分为1,就表示该数值比样本平均值高出1个标准差
如果两个班考试成绩的均值、标准差都不相同,那么,经过标准化之后,可以进行比较。,因为标准化之后二者遵循相同的分布,例如:小明在班上有过两次考试,第一次考试,班级的平均分和标准差分别是80、5;第二次是75、10.而小明在两次考试中都考了90分,那么小明第一次考试成绩的标准分为2,第二次则是1.5,所以小明第一次考试的成绩更好
标准正态分布的具体数值由相应的工具表导出,其原理仍是积分;另外需注意的是:正态分布的图形是对称的;在二项分布中,如果p=q=0.5,那么它的图形也是对称的
3blue1brown有一个关于正态分布的作品,推荐
补充:
一.排列与组合
排列,即从n个元素中选择m个元素,且进行排序,排列数即表示有多少种可能结果;而组合与前者的区别是:组合中不进行排序,也就是抽出的元素相同,视作一种情况。因此,在下面的公式中可观察到:仅仅相差一个m!而已。这正是对抽出的m个元素进行全排列的结果数

全排列:

二.超几何分布
该分布见于高中理科数学,其模型亦不难理解

它与二项分布的区别是:可认为二项分布是“抽出且放回”,超几何分布是“抽出不放回”。
那么这意味着什么呢?抽出不放回时,超几何分布要受影响,因为它的样本量较小,抽出一个样本对下一次抽出个案时有影响。但二项分布不受影响:回想一下,二项分布的参数中,p表示某个比例,不论哪次抽取,都认为抽到的概率是一样的。因此,二项分布适用于大样本情况,超几何分布适用于小样本情况。实际上,在大样本情况下,超几何分布的结果与二项分布的甚为接近,甚至相等

三.多项超几何分布

四.三项分布及多项分布:二项分布之拓展


在二项分布中,


表示期望,可理解为平均值;据说概率论起源于西方社会的赌钱,是为了预测自己赢钱与否,期望值就是平价收益

表示方差
离散型变量的数学期望:

连续型变量的数学期望:
