论文笔记】机器学习在社会科学中的应用:回顾及展望
论文作者:王芳 陈硕 王宣艺
- 五大经济学英文顶尖期刊中涉及到机器学习技术的文章数量在 2014 年之后以每年 74.7%的速度递增,2017 年的数量达到 16 篇。
- 机器学习在社会科学中的应用
- 数据生成
- 文本挖掘
- 归类。例子:Hansen et al. (2018) 使用 Latent Dirichlet Allocation (LDA) 方法;Antweiler and Frank (2003)利用朴素贝叶斯算法 (Naive Bayes) ;King et al. (2017) 和 Qin et al. (2017)分别采用了自动非参数文本分析 (Automated Nonparametric Content Analysis) 和支持向量机 (Support Vector Machine) 。
- 比较文本相似度。例子:Iaria et al. (2018)。
- 情感分析和政治立场分析。Hills et al. (2016) 。
- 图像识别
- Engstrom et al. (2017) 使用卷积神经网络 (Convolutional Neural Networks, CNN) 来识别卫星图片中建筑物、车辆及道路等固定资产,以此评估这些地区的福利水平。
- 文本挖掘
- 预测
- OLS 与 Ridge 在预测上的差异
- 利用 OLS 进行预测的优点在于估计系数偏差为0,缺点是方差可能较大。当解释变量间存在多重共线性时,这一问题尤为严重。
- 为了防止这种情况,机器学习在最小化过程中通过加入估计系数的平方或绝对值来“抑制”系数大小。如此便可以减小估计系数的方差使得预测更加稳定。这种思路可以理解为对系数大小的一种惩罚:过大则赋予较小权重,过小则相反。在方差和误差的权衡中,Ridge 以有偏为代价换取更小的方差。
- 社会科学实证研究,特别是经济学研究,特别强调因果推论。基于这种考虑,计量经济学回归模型都致力于获得一致的估计系数。这意味着在这一方差–偏差权衡中,计量经济学方法宁愿付出方差较大的代价,也不能放弃无偏这一性质 (Athey, forthcoming)。计量经济学的目的不仅是预测,更在于解释现实中的现象以找到背后规律。从这个意义上来说,用来预测的函数形式越简单越好。在这一点上,机器学习不拘泥于“可解释性”,灵活地选择函数形式进行拟合数据,选择用偏差来换取更小的方差以提高预测性能。
- 例子:Goel et al. (2016) 同样采用随机森林方法预测哪些行人更有可能携带武器;刘涛雄和徐晓飞 (2015) 及孙毅等(2014) 研究通过互联网搜索数据分别对 GDP 及通货膨胀率进行预测。陈硕和王宣艺(2018) 试图利用基层社会经济指标预测 GDP。
- OLS 与 Ridge 在预测上的差异
- 因果推断
- DID:合成控制法 (Synthetic Control Method, SCM) (Abadie etal. 2010)的思路:构建反事实的根本在于找出与介入组T尽可能同质的控制组C,然而C中每一个观察对象与介入组的相似度可能各不相同。我们自然会想到给那些与T相似的观察对象赋予更大的权重,而非给所有对象相同大小的权重。受到 SCM 的启发,Doudchenko and Imbens (2016) 将加权平均进一步放松为更加一般的线性组合函数来构建反事实,这也成为了机器学习在 DID 中应用的基本思路。两位学者使用了正则化回归(Regularised Regression),利用控制组和介入组在政策实施前的信息建立线性函数并预测出反事实。
- RD:以60分上大学和59分上大学作为例子。首先,机器学习可以利用小于等于 59 分的样本)归纳出没有上大学的人群中工资与分数间的关系,得到函数𝑓;然后扩大函数的“定义域”:将 60 分作为解释变量带入计算观察效应的函数中。此时函数的取值就是那些“倘若”考到 60 分但却没有接受大学教育的同学未来的工资,将此作为 60 分且读大学同学的反事实。现在问题转变为怎样的机器学习预测函数𝑓能够达成推测因果效应的目的。第一,𝑓应当具有较好的预测性能,即尽可能减小均方误差。第二,𝑓给出的估计量应当具有良好的统计性质:包括在大样本下渐进一致性以及较窄置信区间等。针对这些要求,Imbens andWager (forthcoming) 利用凸优化的数值方法 (Numerical Convex Optimization Method)来进行断点回归的因果推断,超越了传统上用来进行 RD 识别的局部线性回归。
- IV:工具变量方法的实施关键在于第一阶段,不光需要给出证据证明工作变量具有外生性,还要通过统计指标说明该工具变量和内生解释变量之间存在足够强的相关关系。该问题本质上仍然是外生𝑍对内生𝑒𝑑𝑢的预测能力,而这正是机器学习最擅长的地方。这一领域已经积累起了较多的理论计量文献:有些学者采用正则化回归,比如 LASSO 和 Ridge 等方法来构建第一阶段的估计 (Belloni, et al. 2012; Carrasco,2012; Hansen and Kozbur, 2014);另一些学者则采用神经网络等非线性方法来进行第一阶段的估计(Hartford et al., 2016)。
- 数据生成
展望
- 不管数据生成、预测还是因果识别,我们都认为机器学习技术的引入对整个社会科学研究范式的冲击有限。
- 充分发挥机器学习的预测能力依赖于海量数据,当前社会科学研究的样本量远没有达到能够让其获得精准预测的下限。
- 很大程度上在于社会科学,特别是经济学在识别因果上已经发展出非常成熟的范式。除非能够带来颠覆性的边际贡献,研究没有理由抛弃传统因果识别方法。我们认为目前一个较为务实的做法是将机器学习识别因果的相关证据作为稳健性检验方式放入原有框架。
- 我们必须对该技术在应用过程中可能带来的问题也要有清醒的认识,这主要涉及学者间不平等及数据可复制性问题。
- 机器学习依赖海量数据,这些数据的产生者主要来自业界和政府组织。可以想象,获得这些数据的主要方式并不是团队劳动投入,而是学者通过个人和组织的网络关系获得使用许可。这无疑给大部分学者设置了进入障碍,进而造成赢者通吃并可能加剧学界内部的不平等。
- 基于大数据的研究,学者虽然可以公布代码,但数据的公开必须获得数据提供方的许可。和一般数据相比,业界和政府可能更不情愿公布这些海量数据。这可能导致基于大数据研究的可复制性降低。
- 不管数据生成、预测还是因果识别,我们都认为机器学习技术的引入对整个社会科学研究范式的冲击有限。