大数据的核心是预测
大数据洞察,社会需要放弃它对因果关系的渴求,而仅需要关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。
人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济增长速度快9倍。
大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。在那 个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。
有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情 的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一 开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预 测,也能够更好地理解这个世界。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因 为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力 气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴 趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不 精确的存在了。
互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到 一Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示 像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统 不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要 了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的 原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分 钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时 间信息。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们 进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在我 们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭 隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节, 也依然会错过事物的全貌。
相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。
我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机 制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪些词条可以表示流感在 何时何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能 显示流感的传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。 我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的 相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。
在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立的。当然,关于理论的争辩并不是我们要研究的重点。
普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。这是我们对已有的知识和信仰的执著。在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。
与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多 时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了 理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是 我们大脑用来避免辛苦思考的捷径。
在小数据时代,很难证明由直觉而来的因果联系是错误的。现在,情况不一样了。将来, 大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关 系也不蕴含多少真实的因果关系。总之,我们的快速思维模式将会遭受各种各样的现实考验。
日常生活中,我们习惯性地用因果关系来考虑事情,所以会认为,因果联系是浅显易寻的。但事实却并非如此。与相关关系不一样,即使用数学这种比较直接的方式,因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清楚。因此,即使我们慢慢思考,想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考,即使大部分时候很多因素都会削弱特定的因果关系。
不过,科学家已经克服了用实验来证明因果关系的难题。实验是通过是否有诱因这两种情 况,分别来观察所产生的结果是不是和真实情况相符,如果相符就说明确实存在因果关系。这 个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能是真实存在的。
与相关关系一样,因果关系被完全证实的可能性几乎是没有的,我们只能说,某两者之间很有可能存在因果关系。但两者之间又有不同,证明因果关系的实验要么不切实际,要么违背社会伦理道德。
不像因果关系,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系,我们 既有数学方法,也有统计学方法,同时,数字工具也能帮我们准确地找出相关关系。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。
可是,我们必须非常认真。相关关系很有用,不仅仅是因为它能为我们提供新的视角, 而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽 掉。
因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只 是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代 因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
迟早有一天,数据化的影响会使水渠和报纸的影响微乎其微,同时,通过赋予人类数据化 世间万物的工具,它也对印刷机和互联网的地位提出了挑战。可是目前,它最主要的用途还是 在商业领域。
Farecast利用机票销售数据来预测未 来的机票价格;谷歌重复使用搜索关键词来监测流感的传播;麦格雷戈博士用婴儿的生命体征 来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用 户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了 什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善 现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这 个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析 并反馈给系统。
2008年1月21日,奥巴马总统在就职的第一天发表了一份总统备忘录,命令美国联邦机构的 负责人公布尽可能多的数据,这使开放政府数据的想法取得了极大的进展。“面对怀疑,公开优 先。”他这样指示道。这真是一个了不起的声明,特别是与那些作出相反指令的前任们相比。奥 巴马的指令促成了data.gov网站的建立,这是美国联邦政府的公开信息资料库。网站从2009年的 47个数据集迅速发展起来,到2012年7月三周年时,数据集已达45万个左右,涵盖了172个机 构。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远 远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却 不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了 专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。
第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿 信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结 果卖给其他公司。它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正 需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠 券。
现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价 值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者 们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧, 也会以更高的价格将其出售。继续用金矿来打比方:只有金子才是真正值钱的。
然而,如果数据拥有者做长远打算的话,有一个小问题十分值得关注:那就是在有些情况 下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利 用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人来挖掘。
除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数 据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。应用得 当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇 压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想 象中还要大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不 良后果比定制化的在线广告要严重得多。
也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以 为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但 也放弃了我们的自由意志。
1976年,在与日俱增的国内压力下,麦克纳马拉在一次演讲 中说道,“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分 点或者资产负债表上的数字。但是如果不对可量化的事物进行量化,我们就会失去全面了解该 事物的机会。”只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变 成强大的武器。
大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险 ——我们需要全新的制度规范,而不是修改原有规范的适用范围。想要保护个人隐私就需要个 人数据处理器对其政策和行为承担更多的责任。同时,我们必须重新定义公正的概念,以确保 人类的行为自由(也相应地为这些行为承担责任)。新机构和专家们需要设计复杂的程序对大 数据进行解读,挖掘出其潜在的价值和结论。他们也要向那些可能受害于大数据结论的人—— 因之被剥夺了工作、接受医疗或贷款权利的人,提供支持。
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使 用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数 据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。
未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一 些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者 减轻潜在伤害。这将激发数据的创新性再利用,同时也确保个人免受无妄之灾。
无论大数据如何威胁到隐私保护,最让人们头疼的都是行为倾向问题。大数据预测的准确 性越来越高,它能够预测行为的发生,在人们犯错之前,提前惩处。因为预测的结果几乎不可 反驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时 也否定了人们会突然改变选择的可能性(无论可能性有多小)。当我们给一个人判定责任(并 给予惩罚)时,必须牢记人类意志的神圣不可侵犯性。人类的未来必须保留部分空间,允许我 们按照自己的愿望进行塑造。否则,大数据将会扭曲人类最本质的东西,即理性思维和自由选 择。
人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济增长速度快9倍。
大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。在那 个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。
有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情 的发展趋势。大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一 开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预 测,也能够更好地理解这个世界。
错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因 为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力 气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴 趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不 精确的存在了。
互联网上最火的网址都表明,它们欣赏不精确而不会假装精确。当一个人在网站上见到 一Facebook的“喜欢”按钮时,可以看到有多少其他人也在点击。当数量不多时,会显示 像“63”这种精确的数字。当数量很大时,则只会显示近似值,比方说“4000”。这并不代表系统 不知道正确的数据是多少,只是当数量规模变大的时候,确切的数量已经不那么重要 了。另外,数据更新得非常快,甚至在刚刚显示出来的时候可能就已经过时了。所以,同样的 原理适用于时间的显示。谷歌的Gmail邮箱会确切标注在很短时间内收到的信件,比方说“11分 钟之前”。但是,对于已经收到一段时间的信件,则会标注如“两个小时之前”这种不太确切的时 间信息。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们 进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在我 们可以分析和能够确定的数据上时,我们对世界的整体理解就可能产生偏差和错误。不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭 隘的小数据中,我们可以自豪于对精确性的追求,但是就算我们可以分析得到细节中的细节, 也依然会错过事物的全貌。
相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。
通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。
我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机 制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪些词条可以表示流感在 何时何地传播;我们不需要了解航空公司怎样给机票定价;我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行相关关系分析,从而知道哪些检索词条是最能 显示流感的传播的,飞机票的价格是否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。 我们用数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的 相关关系分析法更准确、更快,而且不易受偏见的影响。建立在相关关系分析法基础上的预测是大数据的核心。
在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有时他们认为,这是与自由意志相对立的。当然,关于理论的争辩并不是我们要研究的重点。
普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定的问题,就是需要考虑到位。
快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存在。这是我们对已有的知识和信仰的执著。在古代,这种快速思维模式是很有用的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但是,通常这种因果关系都是并不存在的。
与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解。很多 时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际上,我们因此完全陷入了 理解误区之中。就像采样是我们无法处理全部数据时的捷径一样,这种找因果关系的方法也是 我们大脑用来避免辛苦思考的捷径。
在小数据时代,很难证明由直觉而来的因果联系是错误的。现在,情况不一样了。将来, 大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。最终也能表明,统计关 系也不蕴含多少真实的因果关系。总之,我们的快速思维模式将会遭受各种各样的现实考验。
日常生活中,我们习惯性地用因果关系来考虑事情,所以会认为,因果联系是浅显易寻的。但事实却并非如此。与相关关系不一样,即使用数学这种比较直接的方式,因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清楚。因此,即使我们慢慢思考,想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考,即使大部分时候很多因素都会削弱特定的因果关系。
不过,科学家已经克服了用实验来证明因果关系的难题。实验是通过是否有诱因这两种情 况,分别来观察所产生的结果是不是和真实情况相符,如果相符就说明确实存在因果关系。这 个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能是真实存在的。
与相关关系一样,因果关系被完全证实的可能性几乎是没有的,我们只能说,某两者之间很有可能存在因果关系。但两者之间又有不同,证明因果关系的实验要么不切实际,要么违背社会伦理道德。
不像因果关系,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系,我们 既有数学方法,也有统计学方法,同时,数字工具也能帮我们准确地找出相关关系。
相关关系分析本身意义重大,同时它也为研究因果关系奠定了基础。通过找出可能相关的 事物,我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话,我们再进一 步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本。我们也可以从相互联系 中找到一些重要的变量,这些变量可以用到验证因果关系的实验中去。
可是,我们必须非常认真。相关关系很有用,不仅仅是因为它能为我们提供新的视角, 而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽 掉。
因果关系还是有用的,但是它将不再被看成是意义来源的基础。在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只 是一种特殊的相关关系。相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代 因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
迟早有一天,数据化的影响会使水渠和报纸的影响微乎其微,同时,通过赋予人类数据化 世间万物的工具,它也对印刷机和互联网的地位提出了挑战。可是目前,它最主要的用途还是 在商业领域。
Farecast利用机票销售数据来预测未 来的机票价格;谷歌重复使用搜索关键词来监测流感的传播;麦格雷戈博士用婴儿的生命体征 来预测传染病的发生;莫里重新利用老船长的日志而发现了洋流。
一个用来描述人们在网上留下的数字轨迹的艺术词汇出现了,这就是“数据废气”。它是用 户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了 什么信息等。许多公司因此对系统进行了设计,使自己能够得到数据废气并循环利用,以改善 现有的服务或开发新服务。毋庸置疑,谷歌是这方面的领导者,它将不断地“从数据中学习”这 个原则应用到许多服务中。用户执行的每一个动作都被认为是一个“信号”,谷歌对其进行分析 并反馈给系统。
2008年1月21日,奥巴马总统在就职的第一天发表了一份总统备忘录,命令美国联邦机构的 负责人公布尽可能多的数据,这使开放政府数据的想法取得了极大的进展。“面对怀疑,公开优 先。”他这样指示道。这真是一个了不起的声明,特别是与那些作出相反指令的前任们相比。奥 巴马的指令促成了data.gov网站的建立,这是美国联邦政府的公开信息资料库。网站从2009年的 47个数据集迅速发展起来,到2012年7月三周年时,数据集已达45万个左右,涵盖了172个机 构。
数据价值的关键是看似无限的再利用,即它的潜在价值。收集信息固然至关重要,但还远 远不够,因为大部分的数据价值在于它的使用,而不是占有本身。
根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、技能与思维。
第一种是基于数据本身的公司。这些公司拥有大量数据或者至少可以收集到大量数据,却 不一定有从数据中提取价值或者用数据催生创新思想的技能。最好的例子就是Twitter,它拥有 海量数据这一点是毫无疑问的,但是它的数据都通过两个独立的公司授权给别人使用。
第二种是基于技能的公司。它们通常是咨询公司、技术供应商或者分析公司。它们掌握了 专业技能但并不一定拥有数据或提出数据创新性用途的才能。比方说,沃尔玛和Pop-Tarts这两 个零售商就是借助天睿公司(Teradata)的分析来获得营销点子,天睿就是一家大数据分析公 司。
第三种是基于思维的公司。皮特·华登(Pete Warden),Jetpac的联合创始人,就是通过想 法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的 地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和 员工的创新思维,他们有怎样挖掘数据的新价值的独特想法。
一个称为MasterCard Advisors的部门收集和分析了来自210个国家的15亿 信用卡用户的650亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结 果卖给其他公司。它发现,如果一个人在下午四点左右给汽车加油的话,他很可能在接下来的一个小时内要去购物或者去餐馆吃饭,而这一个小时的花费大概在35~50美元之间。商家可能正 需要这样的信息,因为这样它们就能在这个时间段的加油小票背面附上加油站附近商店的优惠 券。
现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价 值还是必须从数据本身中挖掘。因为在未来,我们可以利用数据做更多的事情,而数据拥有者 们也会真正意识到他们所拥有的财富。因此,他们可能会把他们手中所拥有的数据抓得更紧, 也会以更高的价格将其出售。继续用金矿来打比方:只有金子才是真正值钱的。
然而,如果数据拥有者做长远打算的话,有一个小问题十分值得关注:那就是在有些情况 下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利 用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人来挖掘。
除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数 据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。应用得 当,大数据会是我们合理决策过程中的有力武器;倘若运用不当,它就可能会变成权贵用来镇 压民众的工具,轻则伤害顾客和员工的利益,重则损害公民的人身安全。我们所冒的风险比想 象中还要大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不 良后果比定制化的在线广告要严重得多。
也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以 为人的重要组成部分——自由选择的能力和行为责任自负。大数据成为了集体选择的工具,但 也放弃了我们的自由意志。
1976年,在与日俱增的国内压力下,麦克纳马拉在一次演讲 中说道,“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分 点或者资产负债表上的数字。但是如果不对可量化的事物进行量化,我们就会失去全面了解该 事物的机会。”只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变 成强大的武器。
大数据时代,对原有规范的修修补补已经满足不了需要,也不足以抑制大数据带来的风险 ——我们需要全新的制度规范,而不是修改原有规范的适用范围。想要保护个人隐私就需要个 人数据处理器对其政策和行为承担更多的责任。同时,我们必须重新定义公正的概念,以确保 人类的行为自由(也相应地为这些行为承担责任)。新机构和专家们需要设计复杂的程序对大 数据进行解读,挖掘出其潜在的价值和结论。他们也要向那些可能受害于大数据结论的人—— 因之被剥夺了工作、接受医疗或贷款权利的人,提供支持。
在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于数据使 用者为其行为承担责任,而不是将重心放在收集数据之初取得个人同意上。这样一来,使用数 据的公司就需要基于其将对个人所造成的影响,对涉及个人数据再利用的行为进行正规评测。
未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对于一 些危险性较大的项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或者 减轻潜在伤害。这将激发数据的创新性再利用,同时也确保个人免受无妄之灾。
无论大数据如何威胁到隐私保护,最让人们头疼的都是行为倾向问题。大数据预测的准确 性越来越高,它能够预测行为的发生,在人们犯错之前,提前惩处。因为预测的结果几乎不可 反驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时 也否定了人们会突然改变选择的可能性(无论可能性有多小)。当我们给一个人判定责任(并 给予惩罚)时,必须牢记人类意志的神圣不可侵犯性。人类的未来必须保留部分空间,允许我 们按照自己的愿望进行塑造。否则,大数据将会扭曲人类最本质的东西,即理性思维和自由选 择。