万物皆数
查看话题 >继续谈点数据分析
这篇我其实已经不指望所有人都能看下去了。但饭吃到一半,话说到一半,文章写到一半都是不对的。。所以我来继续谈点数据分析,为了在这个巨大的话题里漫游,请允许我谈的多一点,跳跃一点,简略一点,兴尽而止。
前一篇里我说到:
“一个领域/学科是因为有自己关心的核心问题而产生,因为有自己的核心方法论而成立,核心问题和核心方法构成学科的基石和框架,而具体的工具是不断革新和改变的东西。”
数据分析的核心问题和核心方法论是什么呢?
数据分析或者说数据科学,真的和统计,机器学习,复杂科学都关系密切但又不是它们。正是因为它有属于自己的核心问题。
它需要回答的问题原型就是:
系统S在过去这段时间内产生了这个数据集D,请问S处于什么样的状态?
而数据分析的核心方法论是:
将S描述为定量模型M,将数据集D经过加工F,映射到模型M上。M反映了分析者对系统的认识和理解。
直接对D做操作,丢掉S,那就是统计学,因为它们只关心数据集本身。
而需要经过建模去理解的系统,往往是复杂系统,典型的如各种经济系统,社会系统,以及引发这次话题的社交网络。这些系统的各种指标量,往往是无标度,高度不均衡,一点都不正态,因此完全不适用以均值和方差去刻画。所以你直接把一个不均衡数据集拿过来,求个和,求个平均,没什么意思不说,造成的误会比理解还多一点。10000个人里,有一个亿万富翁,于是10000个人的人均收入增加了一亿元。去掉这个富翁,这个群体的人均收入下降一亿元,均值对于财富分布这样的不均衡现象来说没有什么意义。在其他复杂系统中也一样。每个人的关注数分布很不均衡。而且比财富更复杂的是,人和人还不一样,直接加总都是误差之源,而且大数定律也不是始终有效。
补一句,事实上大多数从业者都清楚均值失效这件事,于是大家改画分布图。但问题在于,人眼对于不均衡数据的认知能力是很差的,不同幂律函数和高次函数在靠近y轴的头部部分我相信大多数人分不出来,只能看见一个陡峭的头部。于是画出一个分布图又如何,在复杂系统中,大多数情况我们只是看见雷同的缺乏信息量的幂律曲线图罢了。于是我们还是需要把数据集D加工为模型M。
怎么建立M是个开放问题,在不同情境下不一样。
比如木遥在广播里猜测豆瓣的用户可以划分为不同的岛屿(社群),我们现在通过一个谱聚类算法把这个社群结构弄出来,发现用户可以分为A,B,C,D,一直到Z 一共26 组(假设如此),每组人都更倾向和自己组内的人交流。 那么这个字母表结构就构成一个模型M,基于这个模型,我们可以更好的处理原先的数据,至少可以不再把狮子们和草泥马们放在一起计算平均PV(平均体重)了。
这个M的建立过程,事实上是一个知识的形成过程。而机器学习在数据分析中,往往起关键性的辅助知识形成的作用。你指出用户可以分为26类的时候,你做的就相当于林奈在生物分类中所完成的了不起的工作。认出一类东西,识别它们,就意味新的知识的产生。
模型M,是连接真实系统S和一大堆raw data的桥梁,对M的分析,在理想情况下将代替对S的分析。在这一点上,它有物理学的影子。但数据分析并不是物理学。因为系统S并不像宇宙一样恒定,S往往在快速变动。尤其你如果在互联网,S就是网站,网站每天都有大大小小的更新。好的模型,继续有效,但往往就悲剧了。因为S不是神圣不变的,所以M也不是神圣的。这是一个必需的觉悟。
以上这些,还是没有涉及大数据,不过大数据和这些关系其实很深。因为在真正大数据的应用场景下,通过算法建立M的能力被进一步放大了。这也是为什么,数据分析这整套方法,在数据量越大的场景下威力越大。
我貌似还没有提到黑天鹅和黑天鹅是如何影响数据挖掘的。那就依然做一个开放式结尾吧。因为这依然是一个开放问题,而且并非大数据能解决。
前一篇里我说到:
“一个领域/学科是因为有自己关心的核心问题而产生,因为有自己的核心方法论而成立,核心问题和核心方法构成学科的基石和框架,而具体的工具是不断革新和改变的东西。”
数据分析的核心问题和核心方法论是什么呢?
数据分析或者说数据科学,真的和统计,机器学习,复杂科学都关系密切但又不是它们。正是因为它有属于自己的核心问题。
它需要回答的问题原型就是:
系统S在过去这段时间内产生了这个数据集D,请问S处于什么样的状态?
而数据分析的核心方法论是:
将S描述为定量模型M,将数据集D经过加工F,映射到模型M上。M反映了分析者对系统的认识和理解。
直接对D做操作,丢掉S,那就是统计学,因为它们只关心数据集本身。
而需要经过建模去理解的系统,往往是复杂系统,典型的如各种经济系统,社会系统,以及引发这次话题的社交网络。这些系统的各种指标量,往往是无标度,高度不均衡,一点都不正态,因此完全不适用以均值和方差去刻画。所以你直接把一个不均衡数据集拿过来,求个和,求个平均,没什么意思不说,造成的误会比理解还多一点。10000个人里,有一个亿万富翁,于是10000个人的人均收入增加了一亿元。去掉这个富翁,这个群体的人均收入下降一亿元,均值对于财富分布这样的不均衡现象来说没有什么意义。在其他复杂系统中也一样。每个人的关注数分布很不均衡。而且比财富更复杂的是,人和人还不一样,直接加总都是误差之源,而且大数定律也不是始终有效。
补一句,事实上大多数从业者都清楚均值失效这件事,于是大家改画分布图。但问题在于,人眼对于不均衡数据的认知能力是很差的,不同幂律函数和高次函数在靠近y轴的头部部分我相信大多数人分不出来,只能看见一个陡峭的头部。于是画出一个分布图又如何,在复杂系统中,大多数情况我们只是看见雷同的缺乏信息量的幂律曲线图罢了。于是我们还是需要把数据集D加工为模型M。
怎么建立M是个开放问题,在不同情境下不一样。
比如木遥在广播里猜测豆瓣的用户可以划分为不同的岛屿(社群),我们现在通过一个谱聚类算法把这个社群结构弄出来,发现用户可以分为A,B,C,D,一直到Z 一共26 组(假设如此),每组人都更倾向和自己组内的人交流。 那么这个字母表结构就构成一个模型M,基于这个模型,我们可以更好的处理原先的数据,至少可以不再把狮子们和草泥马们放在一起计算平均PV(平均体重)了。
这个M的建立过程,事实上是一个知识的形成过程。而机器学习在数据分析中,往往起关键性的辅助知识形成的作用。你指出用户可以分为26类的时候,你做的就相当于林奈在生物分类中所完成的了不起的工作。认出一类东西,识别它们,就意味新的知识的产生。
模型M,是连接真实系统S和一大堆raw data的桥梁,对M的分析,在理想情况下将代替对S的分析。在这一点上,它有物理学的影子。但数据分析并不是物理学。因为系统S并不像宇宙一样恒定,S往往在快速变动。尤其你如果在互联网,S就是网站,网站每天都有大大小小的更新。好的模型,继续有效,但往往就悲剧了。因为S不是神圣不变的,所以M也不是神圣的。这是一个必需的觉悟。
以上这些,还是没有涉及大数据,不过大数据和这些关系其实很深。因为在真正大数据的应用场景下,通过算法建立M的能力被进一步放大了。这也是为什么,数据分析这整套方法,在数据量越大的场景下威力越大。
我貌似还没有提到黑天鹅和黑天鹅是如何影响数据挖掘的。那就依然做一个开放式结尾吧。因为这依然是一个开放问题,而且并非大数据能解决。
© 本文版权归 NullPointer 所有,任何形式转载请联系作者。
© 了解版权计划
-
小癫 转发了这篇日记 2021-09-13 01:24:05
-
时时 转发了这篇日记 2021-09-12 15:33:49
-
。 转发了这篇日记 2021-09-12 15:16:35
-
七蛋挞 转发了这篇日记 2021-09-12 14:21:26
-
东青木 转发了这篇日记 2021-09-12 13:39:06
-
山崎 转发了这篇日记 2021-09-12 13:28:35
-
丢丢 转发了这篇日记 2021-09-12 12:51:03
-
猴面包树 转发了这篇日记 2020-03-23 10:52:37
-
liupc 转发了这篇日记
友邻文章之前没有看到过,推一下。 其实内容平台可以考虑对一些半衰期更长的历史内容做一些针对性的推荐策略。从有限的使用感知来看,豆瓣和知乎都做得不太好。
2017-12-13 16:43:02 -
伤心者 转发了这篇日记 2017-01-06 03:45:11
-
yiqiaoqi 转发了这篇日记 2015-03-11 19:27:36
-
雨不停 转发了这篇日记 2014-06-19 17:17:58
-
诗瀛 转发了这篇日记 2014-03-01 23:07:27
-
Huddy小蛮 转发了这篇日记 2014-02-15 14:22:17
-
神無月渡 转发了这篇日记
评论中提到猎鲸仅占总收入的5%到10%,如果为真那么端游还是在走薄利多销的路线啊!现在竞争这么激烈的端游市场都在用什么模式赚钱?内售什么宝箱金条稀有坐骑这样的老套路么?……搞个还算凑合的页游感受一下去
2014-02-14 23:58:47 -
cger 转发了这篇日记 2014-02-12 19:57:40
-
2021努力赚钱 转发了这篇日记
终于找到经济学和社会学复杂的原因了,结合索罗斯的认识,一个不断变化的S需要一个不断进化的M来研究,动态系统的SM果然虐心 啊啊啊 到最后都是在讨论终极实在的命题
2014-02-12 14:01:51 -
海拉鲁小喷菇 转发了这篇日记 2014-02-11 10:42:20