鬼知道数据分析经历了什么
![]() |
数据分析,是指用适当的统计分析方法对收集来的大量数据进行分析,并提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实际应用中,数据分析还可以帮助人们做出判断,以便采取适当行动。那,到底数据分析在实际应用中经历了什么?那今天就随脚步一起来看看吧!
![]() |
1.QQ圈子把前女友推荐给未婚妻
在2012年3月,腾讯推出了QQ圈子。这个新的功能能够根据共同好友的连锁关系,展开扩大用户的人际关系网。正是这个含有数据挖掘和数据分析的新功能,引发了一起“乌龙”事件——把用户的前女友推荐给了未婚妻。此事的最后结局,编者不得而知,然而,好吧,还是不得不慨叹现在的高科技真是高!
2.乔布斯利用大数据延长生命
“苹果之父”乔布斯于2011年10月5日因癌症去世。其实,他患上癌症已经不是一天两天的事了,也通过大数据等新科技积极治疗病患。他曾支付几十万美元医疗费,为自己进行了对所有DNA和肿瘤DNA进行排序,根据基因的数据文档让医生对自己进行针对性的治疗与用药。在数据处理的帮助下,他得以延长了好几年的生命。此例让我们真切地感受到科技改善生活的真谛。
3.《红楼梦》作者考证,曹雪芹只写80回
众所周知,名著《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,读者一般都认为前80回为曹雪芹所写,后40回为高鹗所续。不过,这种看法一直都饱受争议。
那么,能否借助数据分析以做出论证呢?其实,从1985年开始,复旦大学的李贤平教授便带领他的学生做了这项很有意义的工作,他们的分析思路如下——将120回看成120个样本,然后将与情节无关的虚词出现的次数作为变量,从而巧妙地运用数理统计分析方法,看看哪些回目是出自同一人的手笔的。
一般而言,每个人使用某些词的习惯是特有的。根据这一个规律,李教授便用每个回目中47个虚词(之,其,或,……;呀,吗,咧,罢……;可,便,就……等)出现的次数(频率),作为《红楼梦》各个回目的数字标志, 再利用多元分析中的聚类分析法进行聚类。之所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的。而数据分析的结果果然不负众望,这120回被分成了两类——前80回为一类,后40回为一类,这个结果很形象地证实了这200回并不是出自同一人的手笔。
另一个问题是,怎么确定前80回是曹雪芹所写。这时,李教授团队又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定前80回为曹雪芹一人手笔。而后40回是否为高鹗写的呢?论证结果却来个大反转,原来,后40回根本不是高鹗一个人所写,而是曹雪芹亲友将其草稿整理而成的。这个论证当时在红学界轰动非常大。大圣众包威客平台(http://www.dashengzb.cn/)
4.啤酒与尿布
啤酒与尿布的案例,应该早有耳闻吧,这个算是数据挖掘与分析的经典案例了。此结论,是全球最大的零售商沃尔玛发现的。他们通过分析顾客购物的订单数据,发现很多周末购买尿布的顾客同时也会购买啤酒,特别是年轻的爸爸。后来通过分析得知,这些年轻的爸爸在购买尿布照顾小孩之时,也不忘自己看球赛喝啤酒的爱好,沃尔玛更是根据这一规律调整了商品的摆放位置从而增加了销量。由此,啤酒与尿布也结下了不解之缘。
5.Google成功预测冬季流感
2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。通过数据挖掘、数据分析、数据处理,最终Google成功预测了2009年冬季流感的爆发,甚至具体到特定的地区和州。大数据不可不记一功。
![]() |
数据分析,能够帮助我们进行准确的预测并为止制定相应的计划,为大数据的盛行贡献了一分大大的力量。
(更多大数据与商业智能领域干货、兼职机会及行业资源分享等请关注大圣众包微信服务号、“大圣众包”微博,或添加大圣妹个人微信号(dashengmeme),注明“行业+职业”,拉你入big data &BI交流群330648564。)
QQ群二维码请扫:
![]() |
还没人转发这篇日记