辛普森悖论
加州大学伯克利分校新生录取中的性别歧视问题
平权法案可以说是美国最著名的法案之一,由于和本文无关,其历史暂不详论。美国教育领域中的公共大学录取问题,充满各种争议,一向以追求人人平等消除歧视为核心,并且在此推行平权法案之后,从一个极端走到另一个极端,以著名的密歇根大学为例,新生的入学总体评分,必要的毕业考试SAT成绩,满分占18点,而少数族裔种族优惠分就占20点。也就是说,如果一个非常用功的非少数裔青年,在SAT考试中得到满分,1600分(大概在0.5%左右),在其它条件相同的情况下,那么他将在总分上低于一个没有SAT成绩的少数裔青年。当然这是理论上的逻辑说法,实际不会发生这样离奇的事件。
不少保守派认为,这种平权运动矫枉过正,形成了一种对白人和男生的“逆向歧视”。也就是在高等教育入学时任何一个孩子都可能在考试分数高于一个黑人孩子时遭到拒绝,而考分相对较低的黑人孩子可能被录取。加州大学首先将废除平权法案提上议案,并在1995年正式停止实施在招生中优惠少数族裔和妇女。
加州大学伯克利分校依旧有着自己棘手的问题需要解决。1973年的秋季研究生入学数据显示,在总共12673名申请入学的学生中(男性8442女性4321),男性的录取率为44%,女性的录取率为35%。这下加州大学伯克利分校惹上了麻烦,因为录取数据所显示出的对于女性申请者的歧视而被告上了法庭。
在庭审证据环节,却出现了大相径庭的结果。每个学院都要求出示本学院的研究生录取数据,并检查是否有歧视女性申请人的行为。出乎意料的是,绝大多数的学院的录取数据恰恰相反,女性申请人的录取率显著高于男性申请人。
辛普森悖论
加州大学伯克利分校自证清白,对于女性歧视的起诉也已撤诉,但统计学家对这个现象却倍加关注。简而言之这就是著名的辛普森悖论。统计学家指出,女性更倾向于申请那些竞争激烈录取率低,录取人数低的学院,例如英语文学专业,而男性更倾向于申请那些相对较少竞争,录取人数高的学院,例如工程专业和化学专业。
简单例子来说明辛普森悖论
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
在总评中,女生的录取比率反而比男生低。
总录取率来自两个学院录取率的加权平均数。
如果全部女性学生都申请了法学院,那么总体女性学生的录取率就会只有33.6%
如果全部女性学生都申请了商学院,那么总体女性学生的录取率就会高达91.1%
正是因为更多的女性选择了法学院,拉低了整体的女性学生录取率。
Categorical Data Analysis
在这一组contingency table中,有两个categorical variable,一个是申请人的性别(Male, Female),另外一个是学院(Engineering, Science, Art and Society, Business, Law, Medicine)。
男性,女性,以及各个学院的总体录取率,叫做Marginal Probability。录取比例叫做Odds。可以建立GLM的模型来分析。
性别是Binary Variable或者Indicator Variable,学院是nominal variable。很显然学院这个variable是不能quantify的,不能用数值来表示,因为它不是ordinal,数值最终体现的是相对的大小关系,而这个学院之间,没有相对的大小关系。
如果计算性别和学院之间的conditional association,会得到很大的数值。
这个原因之一,就是实验数据是observational,每个学生都有很多数据可以收集,但是观察者只收集自己需要的数据,对自己不需要的数据并没有掌控。
首先我们假设,性别和录取率之间是没有关系的,是independent。在不同的学院下,conditional independence是成立的。但是所有的学院综合统计marginal independence不一定成立。
对于每个学院自己来说 logit(录取率)=mean(学院)+b(性别)
我们有理由假设,性别对于录取率的影响,在每个学院是相同的,而学院自己的录取率,是不同的。因为是在整体分析男性和女性录取率之间的区别。
如果male=1,female=0,那么 logit(female录取率)=mean(学院),b(性别)代表男性和女性之间的差别。
做线性回归,我们做H:b=0的chi-square的检测,得到结果。如果是接受这个假设,那么男女录取比例之间不存在显著差别,如果拒绝这个假设,那么男女比例之间存在显著差别。
用R按照上面的数据来算,b=0的可能性非常大,所以,接受这个假设,男女录取比例之间不存在显著差别。
现实中的应用
现实中的很多数据,通过辛普森悖论,展现出引导性的错误结论。
比如现实中的多干多错,少干少错,不干不错。
一个人经常犯错并不能证明他就比其他更少犯错的人能力低下,有可能是他从事更加复杂,出错率更高的工作的时间占比更大。
reference:数据来源于wikipedia,不一一罗列。
平权法案可以说是美国最著名的法案之一,由于和本文无关,其历史暂不详论。美国教育领域中的公共大学录取问题,充满各种争议,一向以追求人人平等消除歧视为核心,并且在此推行平权法案之后,从一个极端走到另一个极端,以著名的密歇根大学为例,新生的入学总体评分,必要的毕业考试SAT成绩,满分占18点,而少数族裔种族优惠分就占20点。也就是说,如果一个非常用功的非少数裔青年,在SAT考试中得到满分,1600分(大概在0.5%左右),在其它条件相同的情况下,那么他将在总分上低于一个没有SAT成绩的少数裔青年。当然这是理论上的逻辑说法,实际不会发生这样离奇的事件。
不少保守派认为,这种平权运动矫枉过正,形成了一种对白人和男生的“逆向歧视”。也就是在高等教育入学时任何一个孩子都可能在考试分数高于一个黑人孩子时遭到拒绝,而考分相对较低的黑人孩子可能被录取。加州大学首先将废除平权法案提上议案,并在1995年正式停止实施在招生中优惠少数族裔和妇女。
加州大学伯克利分校依旧有着自己棘手的问题需要解决。1973年的秋季研究生入学数据显示,在总共12673名申请入学的学生中(男性8442女性4321),男性的录取率为44%,女性的录取率为35%。这下加州大学伯克利分校惹上了麻烦,因为录取数据所显示出的对于女性申请者的歧视而被告上了法庭。
![]() |
在庭审证据环节,却出现了大相径庭的结果。每个学院都要求出示本学院的研究生录取数据,并检查是否有歧视女性申请人的行为。出乎意料的是,绝大多数的学院的录取数据恰恰相反,女性申请人的录取率显著高于男性申请人。
![]() |
辛普森悖论
加州大学伯克利分校自证清白,对于女性歧视的起诉也已撤诉,但统计学家对这个现象却倍加关注。简而言之这就是著名的辛普森悖论。统计学家指出,女性更倾向于申请那些竞争激烈录取率低,录取人数低的学院,例如英语文学专业,而男性更倾向于申请那些相对较少竞争,录取人数高的学院,例如工程专业和化学专业。
简单例子来说明辛普森悖论
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:
![]() |
![]() |
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
![]() |
在总评中,女生的录取比率反而比男生低。
总录取率来自两个学院录取率的加权平均数。
如果全部女性学生都申请了法学院,那么总体女性学生的录取率就会只有33.6%
如果全部女性学生都申请了商学院,那么总体女性学生的录取率就会高达91.1%
正是因为更多的女性选择了法学院,拉低了整体的女性学生录取率。
Categorical Data Analysis
在这一组contingency table中,有两个categorical variable,一个是申请人的性别(Male, Female),另外一个是学院(Engineering, Science, Art and Society, Business, Law, Medicine)。
男性,女性,以及各个学院的总体录取率,叫做Marginal Probability。录取比例叫做Odds。可以建立GLM的模型来分析。
性别是Binary Variable或者Indicator Variable,学院是nominal variable。很显然学院这个variable是不能quantify的,不能用数值来表示,因为它不是ordinal,数值最终体现的是相对的大小关系,而这个学院之间,没有相对的大小关系。
如果计算性别和学院之间的conditional association,会得到很大的数值。
这个原因之一,就是实验数据是observational,每个学生都有很多数据可以收集,但是观察者只收集自己需要的数据,对自己不需要的数据并没有掌控。
首先我们假设,性别和录取率之间是没有关系的,是independent。在不同的学院下,conditional independence是成立的。但是所有的学院综合统计marginal independence不一定成立。
对于每个学院自己来说 logit(录取率)=mean(学院)+b(性别)
我们有理由假设,性别对于录取率的影响,在每个学院是相同的,而学院自己的录取率,是不同的。因为是在整体分析男性和女性录取率之间的区别。
如果male=1,female=0,那么 logit(female录取率)=mean(学院),b(性别)代表男性和女性之间的差别。
做线性回归,我们做H:b=0的chi-square的检测,得到结果。如果是接受这个假设,那么男女录取比例之间不存在显著差别,如果拒绝这个假设,那么男女比例之间存在显著差别。
用R按照上面的数据来算,b=0的可能性非常大,所以,接受这个假设,男女录取比例之间不存在显著差别。
现实中的应用
现实中的很多数据,通过辛普森悖论,展现出引导性的错误结论。
比如现实中的多干多错,少干少错,不干不错。
一个人经常犯错并不能证明他就比其他更少犯错的人能力低下,有可能是他从事更加复杂,出错率更高的工作的时间占比更大。
reference:数据来源于wikipedia,不一一罗列。
-
快乐的灯灯 转发了这篇日记 2014-09-16 23:39:14
黯淡蓝点的最新日记 · · · · · · ( 全部 )
- 可以改进自己的行为准则 (5人喜欢)
- 《机器辅助证明》by Terence Tao (2024年2月10日) (1人喜欢)
- 复数:多重数学结构的交汇点 (1人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...




