第102回:回归
1 回归
统计学教科书中都会提到Galton那个身高遗传案例,一般仅仅作为单因素线性回归最简单的案例来描述,假期得空查了下资料,发现Galton做的远没有这么简单,或者说在没有统计学方法体系的时代,他做了很有意思的探索分析。
现在我们去看Galton的数据,不过是把父母身高平均数据(这里对母亲数据给予1.08的权重进行平均)与孩子身高数据进行了线性回归,得到下面的图:
由于对数值进行了四舍五入,我们看到的是一个离散有重叠的散点图,实际上,Galton画成离散形式的原始描述如下图:
他实际上是对父母与子女身高的均值的不同偏差段进行了计数,然后把集中较多的点用一个椭圆框了起来,标注了长轴与短轴,这样可以将数据分布看作一个二元正态分布,当我们固定一组X时,另一组Y其实是固定组X加上另一方向的标准差投影。说白了在Pearson相关系数提出之前,Galton实际是用了多元正态分布来解释相关性的。
另一个有意思的地方是Galton向均值回归的思想,因为举例子都是来说相关性的,但忽视了均值回归的解释。均值回归其实是一个很有意思的现象,它表明如果某组变量不与其它变量相关,那么它应该会向均值聚集。在Galton的例子中我们看到,虽然个子高的父母其孩子也个子高,但总没有父母高;同理个子矮的父母子女没有父母那么矮,总体的趋势都是向人群均值集中。这也是Galton圈出椭圆的出发点,他本来想说明的就是向均值回归的现象,结果后来这个案例被更多用来解释遗传对身高的影响,不得不说是个趣闻。
更有意思的是,在Galton时代的100年以后,在有了强大生命科学研究方法的今天,有人把实验中发现的与身高有关的基因与身高做相关分析,得到的结果竟然是还不如Galton直接回归的方法解释的方差多,这引发了名为“missing heritability”的讨论。的确,费半天事筛出的基因还不如古老的探索分析能解决问题,这不成了倒退了吗。不过后来人们引入了线性混合模型基本解决了这个问题,这就是另外的故事了。
其实我感觉向均值回归的思想更重要,这相当于反向思维,例如,当你看到新闻说某种物质可能致癌时,第一反应应该是这个因素究竟能解释多少致癌的风险?我们的大脑太喜欢决定论了,它总是很轻易的把因果关系生成出来并潜移默化的影响我们的行为。但得到相关性的结论又往往是建立在统计学根基上的,你要去关心概率,比率而不是非此即彼。多数现象都是向均值回归的,所谓的影响因素就是一面哈哈镜,通过某个因素的映射,均值回归现象被稀释了,那么这就是一个不错的发现。
人总是倾向于新鲜的事物,一成不变的东西总会视而不见而认为恒常。其实都在变,你重复去看一段笑话,看多了也就不那么可乐了,你会说我笑点变高了,其实是你均值偏移了,不断偏移你就很难乐起来了,大家都吃肉,肉就不好吃了。这种均值偏移有时是瞬时的,举个例子,在音乐厅听完一段演奏,大家鼓掌致敬,这时有人觉得特别好就站起来鼓掌,如果大家都互不干扰可能就完了,但如果又有人站起来呢?如果在音乐厅里的六个人能让你起立的人数分布为
1,1,2,3,4,5
那么没人会起立,因为没有人可以达到自己起立的阈值,但如果此时有一个人站起来打算上厕所,这6个人都会站起来,因为虽然有的人需要另外5个人起立才能站起来,但由于存在不间断的上升阶梯,一个随机扰动就可以让所有人起立鼓掌。如此反复,其实你的品味会不断去贴合整体观众的品味,进而形成一种圈内氛围,大家的喜好变得相对一致,你也就实现了均值回归。有意思的是,你越是需要更多人认可才认可(也就是不随大流),也越有可能成为整体同化的关键因素。换句话讲,如果你打算说服一群人,最好找个摇摆不定或者总持怀疑观点的人下手,他们都搞定了,其余的就不难了。
其实均值回归另一个有意思的应用在于平均人问题,如果你的圈子里有一个人在某方面特别突出,那么在另一方面应该存在短板,如果都比你强,那说明这货不该存在于你的圈子,圈子应该具有内稳态,也就是均值回归现象,要不然聊不到一起。这样说来如果两个人同时在顶级期刊发表论文,一个来自名牌大学,另一个来自普通大学,那么来自普通大学的文章通常要付出更大的努力才能发表,而名牌大学灌水也很常见。说白了审稿人也会存在这种均值回归的权衡:如果我让这篇发表,那么对我在编辑那里审稿能力的评判是有影响的。虽然我也不喜欢这种现象,但似乎确实存在。
很多看似离奇的事总有其回归均值的表现。同样的研究不同的人写,结果还是那些结果,但接受情况差异很大,做研究最好不要盯着综合性期刊,要想在业内获得认可,最好发业内认可的文章,不然会让人觉得不扎实。人也一样,总有50%的人比另外50%在某方面优秀,反过来想就是我自己总有缺点与不足,如果在各个方面都属于前50%,那么这个人整体上可以说是万里挑一了,说到底还是得谦虚。
2 柴静
因为有崔永元的前车之鉴,我对新闻记者报道专业问题的不专业性有一定的防备,之前没怎么看过柴静的作品,这次看感觉整体还可以,在非专业水平上做到足够全面深入了。当然要是说里面的概念错误与误解也是一大把一大把的,但比崔永元靠点谱。柴静是个会做演讲的人,用数据讲故事还是很不错的,出问题的基本都在煽情的部分。其实中间不少数据已经发表,当然没有标注参考对于文艺青年要求太高。最想吐槽的是她女儿的超重与肿瘤其实在高龄产妇中十分常见,可能真的跟雾霾没啥关系,不知道她是故意放的这里做素材还是其他考虑。
3 时文选粹
IARC在EHP上发表了一篇有100位作者的文章,详细介绍了40年来对人类致癌风险的评价,值得一读:
http://ehp.niehs.nih.gov/1409149/
ES&T上一篇文章总结并提出了纳米银的特洛伊木马效应,很有启发
http://pubs.acs.org/doi/abs/10.1021/es504705p
通过电量而不是GPS追踪定位,这种黑魔法是存在的
http://www.qdaily.com/display/articles/6767.html
关于数据可视化很好的指南
http://policyviz.com/data-visualization-library/
气候变化可能导致疾病流行,不错的研究角度,可考虑数据驱动
http://www.scientificamerican.com/article/global-warming-may-spawn-new-disease-outbreaks/?WT.mc_id=SA_Twitter
统计学教科书中都会提到Galton那个身高遗传案例,一般仅仅作为单因素线性回归最简单的案例来描述,假期得空查了下资料,发现Galton做的远没有这么简单,或者说在没有统计学方法体系的时代,他做了很有意思的探索分析。
现在我们去看Galton的数据,不过是把父母身高平均数据(这里对母亲数据给予1.08的权重进行平均)与孩子身高数据进行了线性回归,得到下面的图:
![]() |
由于对数值进行了四舍五入,我们看到的是一个离散有重叠的散点图,实际上,Galton画成离散形式的原始描述如下图:
![]() |
他实际上是对父母与子女身高的均值的不同偏差段进行了计数,然后把集中较多的点用一个椭圆框了起来,标注了长轴与短轴,这样可以将数据分布看作一个二元正态分布,当我们固定一组X时,另一组Y其实是固定组X加上另一方向的标准差投影。说白了在Pearson相关系数提出之前,Galton实际是用了多元正态分布来解释相关性的。
另一个有意思的地方是Galton向均值回归的思想,因为举例子都是来说相关性的,但忽视了均值回归的解释。均值回归其实是一个很有意思的现象,它表明如果某组变量不与其它变量相关,那么它应该会向均值聚集。在Galton的例子中我们看到,虽然个子高的父母其孩子也个子高,但总没有父母高;同理个子矮的父母子女没有父母那么矮,总体的趋势都是向人群均值集中。这也是Galton圈出椭圆的出发点,他本来想说明的就是向均值回归的现象,结果后来这个案例被更多用来解释遗传对身高的影响,不得不说是个趣闻。
更有意思的是,在Galton时代的100年以后,在有了强大生命科学研究方法的今天,有人把实验中发现的与身高有关的基因与身高做相关分析,得到的结果竟然是还不如Galton直接回归的方法解释的方差多,这引发了名为“missing heritability”的讨论。的确,费半天事筛出的基因还不如古老的探索分析能解决问题,这不成了倒退了吗。不过后来人们引入了线性混合模型基本解决了这个问题,这就是另外的故事了。
其实我感觉向均值回归的思想更重要,这相当于反向思维,例如,当你看到新闻说某种物质可能致癌时,第一反应应该是这个因素究竟能解释多少致癌的风险?我们的大脑太喜欢决定论了,它总是很轻易的把因果关系生成出来并潜移默化的影响我们的行为。但得到相关性的结论又往往是建立在统计学根基上的,你要去关心概率,比率而不是非此即彼。多数现象都是向均值回归的,所谓的影响因素就是一面哈哈镜,通过某个因素的映射,均值回归现象被稀释了,那么这就是一个不错的发现。
人总是倾向于新鲜的事物,一成不变的东西总会视而不见而认为恒常。其实都在变,你重复去看一段笑话,看多了也就不那么可乐了,你会说我笑点变高了,其实是你均值偏移了,不断偏移你就很难乐起来了,大家都吃肉,肉就不好吃了。这种均值偏移有时是瞬时的,举个例子,在音乐厅听完一段演奏,大家鼓掌致敬,这时有人觉得特别好就站起来鼓掌,如果大家都互不干扰可能就完了,但如果又有人站起来呢?如果在音乐厅里的六个人能让你起立的人数分布为
1,1,2,3,4,5
那么没人会起立,因为没有人可以达到自己起立的阈值,但如果此时有一个人站起来打算上厕所,这6个人都会站起来,因为虽然有的人需要另外5个人起立才能站起来,但由于存在不间断的上升阶梯,一个随机扰动就可以让所有人起立鼓掌。如此反复,其实你的品味会不断去贴合整体观众的品味,进而形成一种圈内氛围,大家的喜好变得相对一致,你也就实现了均值回归。有意思的是,你越是需要更多人认可才认可(也就是不随大流),也越有可能成为整体同化的关键因素。换句话讲,如果你打算说服一群人,最好找个摇摆不定或者总持怀疑观点的人下手,他们都搞定了,其余的就不难了。
其实均值回归另一个有意思的应用在于平均人问题,如果你的圈子里有一个人在某方面特别突出,那么在另一方面应该存在短板,如果都比你强,那说明这货不该存在于你的圈子,圈子应该具有内稳态,也就是均值回归现象,要不然聊不到一起。这样说来如果两个人同时在顶级期刊发表论文,一个来自名牌大学,另一个来自普通大学,那么来自普通大学的文章通常要付出更大的努力才能发表,而名牌大学灌水也很常见。说白了审稿人也会存在这种均值回归的权衡:如果我让这篇发表,那么对我在编辑那里审稿能力的评判是有影响的。虽然我也不喜欢这种现象,但似乎确实存在。
很多看似离奇的事总有其回归均值的表现。同样的研究不同的人写,结果还是那些结果,但接受情况差异很大,做研究最好不要盯着综合性期刊,要想在业内获得认可,最好发业内认可的文章,不然会让人觉得不扎实。人也一样,总有50%的人比另外50%在某方面优秀,反过来想就是我自己总有缺点与不足,如果在各个方面都属于前50%,那么这个人整体上可以说是万里挑一了,说到底还是得谦虚。
2 柴静
因为有崔永元的前车之鉴,我对新闻记者报道专业问题的不专业性有一定的防备,之前没怎么看过柴静的作品,这次看感觉整体还可以,在非专业水平上做到足够全面深入了。当然要是说里面的概念错误与误解也是一大把一大把的,但比崔永元靠点谱。柴静是个会做演讲的人,用数据讲故事还是很不错的,出问题的基本都在煽情的部分。其实中间不少数据已经发表,当然没有标注参考对于文艺青年要求太高。最想吐槽的是她女儿的超重与肿瘤其实在高龄产妇中十分常见,可能真的跟雾霾没啥关系,不知道她是故意放的这里做素材还是其他考虑。
3 时文选粹
IARC在EHP上发表了一篇有100位作者的文章,详细介绍了40年来对人类致癌风险的评价,值得一读:
http://ehp.niehs.nih.gov/1409149/
ES&T上一篇文章总结并提出了纳米银的特洛伊木马效应,很有启发
http://pubs.acs.org/doi/abs/10.1021/es504705p
通过电量而不是GPS追踪定位,这种黑魔法是存在的
http://www.qdaily.com/display/articles/6767.html
关于数据可视化很好的指南
http://policyviz.com/data-visualization-library/
气候变化可能导致疾病流行,不错的研究角度,可考虑数据驱动
http://www.scientificamerican.com/article/global-warming-may-spawn-new-disease-outbreaks/?WT.mc_id=SA_Twitter
还没人转发这篇日记