6.1 全新的开始 D1
不说太多乱七八糟的话,此为打卡第一天,希望阅读时事、财经、统计三方面新闻,预计时长20'。最近状态不好,需要保持心情稳定,心态平稳。
P1时事
1.王菊的火- 王菊的火是否是一个可持续的过程,还有待进一步观察,但我们可以从中理解美的多元性,并以更包容的姿态看待各种新鲜事物,而这种思维并不该只是一些年轻人所拥有的。 一是思维的兼容并包性;二是粉丝文化的另辟蹊径。从大数据中火起来的鹿晗,到现在王菊的粉丝文化之火,成名之路不断拓宽,不仅意味着新生代力量的增强,亦表明社会文化与潮流的多元化。
2.5G 5G-人民日报 一是5G意味着高速率,手机的更新换代与流量费的增加;二是5G+无人驾驶;三是5G+智能家居。期待!
3. 王毅回应欧洲对“16+1合作”的担忧 -“16+1合作”是中国同中东欧国家自主自愿创建的一个跨区域合作平台,已成为中国同欧洲关系的组成部分和有益补充。开展“16+1”合作,既有利于发挥中方同中东欧国家的互补优势,也有利于欧洲缩小内部差距,实现欧洲的均衡发展。时间会证明,“16+1合作”可以为欧洲加快一体化进程提供助力。
P2财经
1.现代慈善公益最核心的价值是帮助人们脱离困境,成为一个有血有肉、有尊重、独立自主的人。在有尊严地自由活着与活着之间,显然有尊严自由地活着比活着更为重要,我们很难想象,一个不懂得尊严与自由的人,如何敢说自己热爱生命,自己比孩子的妈妈更爱孩子。
2. 关于A股入摩的五个问题
1.为何是现在?自2013年以来,MSCI已四次就纳入A股向市场征求意见,该提议三次遭到拒绝——直到去年才被接受。投资者不同意该提议,在很大程度上是出于对准入的担忧,他们认为,中国市场仍未充分开放、不允许资金自由进出;后者是对投资者至关重要的机制。可以说,过去几年中国在开放市场方面的最大变化是推出了股市互联互通机制(Stock Connect)。“资本流动性曾是一个关键担忧,”MSCI亚太区研究主管谢征傧(Chin-Ping Chia)说,“突破是在互联互通机制宣布后实现的。它表明,中国有望创建那种便于投资者进出、不受歧视、没有额度限制的准入环境。那是个转折点。”
2. 被动型基金将会如何被迫成为买家?尽管最初的纳入数量较小,但它将迫使被动型基金购买这些中国公司的股票,并将给一些主动型基金的经理带来一定程度的压力——这些基金将该指数当作绩效基准——促使他们仿效被动型基金的做法。
3. 中国股票在该指数中的规模有多大?纳入这些股票将分两个阶段实施,以考虑通过沪港通和深港通每日可经由香港流动的资金上限,确保有足够供应以满足需求。MSCI将仅仅纳入那些可以通过互联互通机制交易的A股大盘股。该指数提供商表示,从5月底开始,被选定的A股股票自由流通市值的2.5%将被纳入MSCI新兴市场指数,从8月底开始再纳入2.5%,占该指数的权重仅为0.8%。然而,MSCI表示,如果A股市场被100%纳入,将把A股占该指数的权重提高到约16%,将中国股票占该指数的权重推高至逾40%。
4. 哪些经济体的权重将被降低?法国巴黎银行(BNP Paribas)的分析师表示,在最初5%的A股纳入后,韩国、台湾、巴西和东盟(Asean)的权重将下降最多。如果将A股100%纳入,那么韩国的权重将从15%降至12.7%,台湾从11.1%降至9.4%,印度则从8.3%降至7%。“中国A股达到其全部权重的速度,将取决于投资者通过初步敞口获得的信心水平如何,”道富环球投资管理有限公司(State Street Global Advisors)亚洲区(除日本外)全球股票贝塔解决方案主管苏珊•达罗克(Susan Darroch)说。
5. 为何有些投资者感到担心?
从停牌到杠杆率,一些知名投资者提出了对A股的担忧。MSCI曾在2016年表示,中国A股中停牌的数量最多,远远超过其他国家股市。安本标准投资管理(Aberdeen Standard Investments)亚太业务主管杨修(Hugh Young)告诉英国《金融时报》,他长期以来一直担心A股的治理问题。“我们一直很谨慎;我们不打算大举进入,因为我们对A股公司的治理和财务不太放心,”他说。
P3 《The Seven Pillars of Statistical Wisdom》
支柱一:聚合
统计学毫无疑问是一门独立的学科,经常很多人搞混统计跟数学,其实数学在各个学科里都更多是以抽象工具的角色出现,统计学也并不例外。最原始的统计需求就是对客观世界的抽象,跟农业最相关的天文观察要求所有测量要准确,但问题每次测出来都会有差异,那么就需要一个方法来描述相似但不一样的测量值,这就是统计聚合思想的来源。科幻小说出现的具备照相机记忆的人是无法分析事物的,他们只能记住所有细节,而这个负担是非常重的,此时抽象的意义就很大了。现在比较火的大数据就好比这个人,细节丰富但需要有意识地抽象,不然就是一堆数字的堆砌。这里最常见的统计学术语就是众数、中位数还有均值,都是聚合抽象描述的体现。
其实这个思想提出时也是被批判的,因为显然聚合出来的东西例如平均人不是客观存在的,也就没法指导具体事物的描述。但本来聚合描述的就不是具体事物,它用总结替代完整描述,通过选择性舍弃一部分信息来获得更有价值的信息,这可以说是统计学的一个根基。
支柱二:信息测量
在这个支柱一上我们提到了信息,那么对应另一个支柱就是对信息的测量,因为我们要知道保留哪一些而舍弃哪一些。当我们构建一个统计量时,其实是丢掉了一些与目的无关的信息的。更有意思的是,对同一个事物的描述,即便测量的准确性上没有差别,后来的观察贡献的信息并不如早期多,信息量与观测数的平方根成正比而不是观测数(我严重怀疑这个说法借鉴了薛定谔的《生命是什么》)。举例来说,早期造币按批次称重,误差 r ,10 个一起称的误差并不是 10r,100个一起称也不是 100r,你称 10 个得到的误差与称 100 个得到的误差精度最多高一倍,也就是后面 90 个硬币提供的信息大概等同于前 10 个提供的信息,这个现象也是统计学里很常见的,基于此我们可以去搞采样及基于分布的理论而不至于担心丢失太多信息。
支柱三:似然度
另一个基础思想则是似然度,前面两个基础思想都是面向测量的,有了测量就可以进行比较。最通常的比较就是跟随机事件比,而有了随机事件就可以谈概率了。此时特定分布下概率就是似然度,看看某件事在大背景下出现的可能。p 值理论的根基就是似然度概率且最初的 p 值概念里就是仅仅去看零假设下的发生概率。1920 年 Fisher 提出,如果 A 代表科学目标,X 代表数据,那么定义似然度函数 L(A|X) 为出现 X 的 A 的概率密度函数,X 已知,找这个函数最大时的 A,一阶导数为0找到参数,二阶导数描述准确性,但这里面最大的问题在于样本数量很少时对于方差估计是有偏的,同时如果描述样本的维度高了这个问题会更加严重。
抛开这个,基于概率的推理本身就是统计学很特殊的世界观,简单说就是只要概率不为零,一切皆可能。休谟认为奇迹是违反自然法则而不能发生的,但 Price 用贝叶斯理论推导认为即使发生概率很小,多次实验后也会发生奇迹,在这里经验法则跟统计规律就出现了对立。传统世界观是决定论的、逻辑的,但统计世界观是概率的,不可知的或可更新的,值得注意的是,这种不可调和的差异也存在与量子力学与经典力学的世界观之间。很难说哪种是世界本来面目,只能说这是两种认知角度,可以矛盾地存在于同一个人身上。
支柱四:内部比较
有了面向背景目标的似然度,统计学可以解决外部比对问题,也就是跟预设分布去比较。然而,现实问题更多是数据内部的异质性所要求的内部比较,很多耳熟能详的统计方法例如 t 检验、方差分析、Bootstrap 等都是用来解决内部比较问题的。1908年, Gosset 用 Cushny-Peebles 数据展示单样本t检验,他考虑了样本方差在样本数较少且总体方差未知时如何估计,引入了自由度与样本方差,得到一个近似正态分布的t分布,这篇论文印错了数、分类也错了、引用年份也错了,但最后结果还可以有历史意义的。但其实这篇论文出版后很长时间无人问津,包括 Gosset 本人都忽略了,直到 Fisher 在 1912 年从剑桥毕业后发现了这篇论文,他写信给 Gosset 想讨论证明问题,但 Gosset 没看懂,后来又转给 Pearson 但也没看懂。最后 Fisher 自己撸袖子证明了并进一步提出双样本 t 检验,他结合相关系数与方差分析写在了 1925 年的教科书 《Statistical Methods for Research Workers》 中,到这里这个相对通用的内部比较方法才开始真正流行。再往后 Tukey 提出了 jackknife ,Efron 提出了 Bootstrap,都是从样本内部进行比较来估计差异变化。值得注意的是数据量越大,内部比较中出现偶然相关的可能性就越大,而时间序列数据也有自相关问题,这是很容易忽视的差异变化来源。
支柱五:回归
回归思想应该是统计学作为世界观最直接的体现,一般人看世界是发展的或静止的或规律决定的,但统计学家看世界是自带回归视角的,也就是说,凡事都会回归到本来的样子,规律性是松弛有度的。
进化论来说,最初其理论体系是不完整的,里面假设了同一个亲代会产生不同的子代,如果不断产生,这个变异累计会无穷大,出现怪物,实际代际间差异并不大。这里的矛盾是等比法则(a/b = c/d)例如身高体重比如果稳定可以知三得一,这样子代的高身高一定意味着高体重,但现实数据并非符合这个强规则。
这个问题最早被高尔顿钉板所捕捉:如果关注极端小部分 会发现其主要来源是不极端的部分;相反不极端的部分也会有来自极端部分的回归。然后研究身高时,高尔顿发现孩子身高会有向父辈身高均值回归的现象:每个人的身高都有固定部分跟变动部分,固定部分是都一样的,这样代际变化可以用亲代子代的不完全相关来解释,达尔文的自然选择就可以构建在遗传学理论上了,至此人口平衡与代际变异就可以有统计模型来和谐相处了。否则不论是强相关还是不相关都不能解释现实数据,回归思想可以说是统计学的中庸之道。
这个将效应区分为固定跟临时两部分的思想也构成了经济学里消费函数的根基,人们消费固定部分是收入而不是短期刺激,因而政府短期加大开支并不能刺激消费,这个指导思想帮助弗里德曼拿了诺奖。
多元问题在多元统计方法之前都是用几何学跟数据分析混合求解,所以最多就是两元平面分析,Galton 提出相关系数后,Pearson 等人发扬光大为多元分析。而贝叶斯统计则先假设参数分布与这个参数下出现数据的似然度,然后去求出现这个数据的参数,这种推断比较依赖假设,初始值变了就都变了。现代统计学的另一个新兴分支因果分析就是基于强假设进行推断。
支柱六:实验设计
前面讲的统计学是收敛的,观察的,但当发展到实验科学年代,统计学就要去解决刻意观察获得规律的方法。这里面随机化是一个核心观念,用来确保除了你关心的变量,其余的都能随机或符合某个分布。1874在《科学原则》这本书里首次提到了控制变量法,一次测一个。但在统计学大放异彩的20世纪,Fisher 认为一次回答一个问题是错的,因为自然问题从来都是复杂的不能只关注一个,提出了加性模型。这里统计学要为复杂现象提供合理的设计工具,时至今日,在数据概念满天飞的时代数据收集似乎不是问题,很多人就会说更重要的是提出问题。这倒没错,但如果没有统计学实验设计思维的加持,很多问题是无法对应实际数据的,我想 A/B 测试就是一个很好的例证,如果设计不当或有偏,拿到的现象就会产生误导。但反过来说,如果想让统计学真正进入其他学科,就要去理解实际问题而不仅仅是套用新的模型。当然在深度学习满天飞的今天似乎理解模型本身已经不如解决实际问题重要了,这里面有还原论与系统论两种科学思想的对立。但就我个人经验而言,实验类基础学科学术圈对黑箱或灰箱模型有天然的抗拒,调查类基础学科及工程上则对这类模型更友好些。
支柱七:残差
这是我个人非常欣赏的一个统计要素,本质上科学就是通过解释剩余现象进步,而当今其实理论体系里留给重大发现的空间是有限的,所有人都在力图精进 1%,不过都是在 80%-90% 的基础上的,也就是大家伙都在当前的噪音里探索未知信号的模式。具体到统计模型就是对模型解释不了的部分与模型诊断的思想,有了这个部分统计学就有了不断发展的动力与自我审视的原则。
逻辑上看这本书其实有点内容上的前后重叠,但思想上却是很有启发的,如果一个人熟悉统计学的世界观,那么他可能会更好的与这个世界相处:既不会被教条的规则所折磨,也不会被充沛的情感所奴役。科研人员其实就经常盘旋在理性与感性之间,统计学可以很好的把感性观察或假设转化为理性规律,为科学进步保驾护航。统计学世界观其实是有点人文关怀在里面的,不论是把个体包裹在整体之中、为奇迹赋值、为发展提供理论空间还是回归的中庸之道,当然这几点也可能有完全不同的解读方法。
每当你觉得“这个我知道”,你其实不知道;
若有一套理论能解释一切,抛弃它;
避开无意义的闲聊,远离自命不凡的人。