万物皆数
查看话题 >继续谈点数据分析
这篇我其实已经不指望所有人都能看下去了。但饭吃到一半,话说到一半,文章写到一半都是不对的。。所以我来继续谈点数据分析,为了在这个巨大的话题里漫游,请允许我谈的多一点,跳跃一点,简略一点,兴尽而止。
前一篇里我说到:
“一个领域/学科是因为有自己关心的核心问题而产生,因为有自己的核心方法论而成立,核心问题和核心方法构成学科的基石和框架,而具体的工具是不断革新和改变的东西。”
数据分析的核心问题和核心方法论是什么呢?
数据分析或者说数据科学,真的和统计,机器学习,复杂科学都关系密切但又不是它们。正是因为它有属于自己的核心问题。
它需要回答的问题原型就是:
系统S在过去这段时间内产生了这个数据集D,请问S处于什么样的状态?
而数据分析的核心方法论是:
将S描述为定量模型M,将数据集D经过加工F,映射到模型M上。M反映了分析者对系统的认识和理解。
直接对D做操作,丢掉S,那就是统计学,因为它们只关心数据集本身。
而需要经过建模去理解的系统,往往是复杂系统,典型的如各种经济系统,社会系统,以及引发这次话题的社交网络。这些系统的各种指标量,往往是无标度,高度不均衡,一点都不正态,因此完全不适用以均值和方差去刻画。所以你直接把一个不均衡数据集拿过来,求个和,求个平均,没什么意思不说,造成的误会比理解还多一点。10000个人里,有一个亿万富翁,于是10000个人的人均收入增加了一亿元。去掉这个富翁,这个群体的人均收入下降一亿元,均值对于财富分布这样的不均衡现象来说没有什么意义。在其他复杂系统中也一样。每个人的关注数分布很不均衡。而且比财富更复杂的是,人和人还不一样,直接加总都是误差之源,而且大数定律也不是始终有效。
补一句,事实上大多数从业者都清楚均值失效这件事,于是大家改画分布图。但问题在于,人眼对于不均衡数据的认知能力是很差的,不同幂律函数和高次函数在靠近y轴的头部部分我相信大多数人分不出来,只能看见一个陡峭的头部。于是画出一个分布图又如何,在复杂系统中,大多数情况我们只是看见雷同的缺乏信息量的幂律曲线图罢了。于是我们还是需要把数据集D加工为模型M。
怎么建立M是个开放问题,在不同情境下不一样。
比如木遥在广播里猜测豆瓣的用户可以划分为不同的岛屿(社群),我们现在通过一个谱聚类算法把这个社群结构弄出来,发现用户可以分为A,B,C,D,一直到Z 一共26 组(假设如此),每组人都更倾向和自己组内的人交流。 那么这个字母表结构就构成一个模型M,基于这个模型,我们可以更好的处理原先的数据,至少可以不再把狮子们和草泥马们放在一起计算平均PV(平均体重)了。
这个M的建立过程,事实上是一个知识的形成过程。而机器学习在数据分析中,往往起关键性的辅助知识形成的作用。你指出用户可以分为26类的时候,你做的就相当于林奈在生物分类中所完成的了不起的工作。认出一类东西,识别它们,就意味新的知识的产生。
模型M,是连接真实系统S和一大堆raw data的桥梁,对M的分析,在理想情况下将代替对S的分析。在这一点上,它有物理学的影子。但数据分析并不是物理学。因为系统S并不像宇宙一样恒定,S往往在快速变动。尤其你如果在互联网,S就是网站,网站每天都有大大小小的更新。好的模型,继续有效,但往往就悲剧了。因为S不是神圣不变的,所以M也不是神圣的。这是一个必需的觉悟。
以上这些,还是没有涉及大数据,不过大数据和这些关系其实很深。因为在真正大数据的应用场景下,通过算法建立M的能力被进一步放大了。这也是为什么,数据分析这整套方法,在数据量越大的场景下威力越大。
我貌似还没有提到黑天鹅和黑天鹅是如何影响数据挖掘的。那就依然做一个开放式结尾吧。因为这依然是一个开放问题,而且并非大数据能解决。
前一篇里我说到:
“一个领域/学科是因为有自己关心的核心问题而产生,因为有自己的核心方法论而成立,核心问题和核心方法构成学科的基石和框架,而具体的工具是不断革新和改变的东西。”
数据分析的核心问题和核心方法论是什么呢?
数据分析或者说数据科学,真的和统计,机器学习,复杂科学都关系密切但又不是它们。正是因为它有属于自己的核心问题。
它需要回答的问题原型就是:
系统S在过去这段时间内产生了这个数据集D,请问S处于什么样的状态?
而数据分析的核心方法论是:
将S描述为定量模型M,将数据集D经过加工F,映射到模型M上。M反映了分析者对系统的认识和理解。
直接对D做操作,丢掉S,那就是统计学,因为它们只关心数据集本身。
而需要经过建模去理解的系统,往往是复杂系统,典型的如各种经济系统,社会系统,以及引发这次话题的社交网络。这些系统的各种指标量,往往是无标度,高度不均衡,一点都不正态,因此完全不适用以均值和方差去刻画。所以你直接把一个不均衡数据集拿过来,求个和,求个平均,没什么意思不说,造成的误会比理解还多一点。10000个人里,有一个亿万富翁,于是10000个人的人均收入增加了一亿元。去掉这个富翁,这个群体的人均收入下降一亿元,均值对于财富分布这样的不均衡现象来说没有什么意义。在其他复杂系统中也一样。每个人的关注数分布很不均衡。而且比财富更复杂的是,人和人还不一样,直接加总都是误差之源,而且大数定律也不是始终有效。
补一句,事实上大多数从业者都清楚均值失效这件事,于是大家改画分布图。但问题在于,人眼对于不均衡数据的认知能力是很差的,不同幂律函数和高次函数在靠近y轴的头部部分我相信大多数人分不出来,只能看见一个陡峭的头部。于是画出一个分布图又如何,在复杂系统中,大多数情况我们只是看见雷同的缺乏信息量的幂律曲线图罢了。于是我们还是需要把数据集D加工为模型M。
怎么建立M是个开放问题,在不同情境下不一样。
比如木遥在广播里猜测豆瓣的用户可以划分为不同的岛屿(社群),我们现在通过一个谱聚类算法把这个社群结构弄出来,发现用户可以分为A,B,C,D,一直到Z 一共26 组(假设如此),每组人都更倾向和自己组内的人交流。 那么这个字母表结构就构成一个模型M,基于这个模型,我们可以更好的处理原先的数据,至少可以不再把狮子们和草泥马们放在一起计算平均PV(平均体重)了。
这个M的建立过程,事实上是一个知识的形成过程。而机器学习在数据分析中,往往起关键性的辅助知识形成的作用。你指出用户可以分为26类的时候,你做的就相当于林奈在生物分类中所完成的了不起的工作。认出一类东西,识别它们,就意味新的知识的产生。
模型M,是连接真实系统S和一大堆raw data的桥梁,对M的分析,在理想情况下将代替对S的分析。在这一点上,它有物理学的影子。但数据分析并不是物理学。因为系统S并不像宇宙一样恒定,S往往在快速变动。尤其你如果在互联网,S就是网站,网站每天都有大大小小的更新。好的模型,继续有效,但往往就悲剧了。因为S不是神圣不变的,所以M也不是神圣的。这是一个必需的觉悟。
以上这些,还是没有涉及大数据,不过大数据和这些关系其实很深。因为在真正大数据的应用场景下,通过算法建立M的能力被进一步放大了。这也是为什么,数据分析这整套方法,在数据量越大的场景下威力越大。
我貌似还没有提到黑天鹅和黑天鹅是如何影响数据挖掘的。那就依然做一个开放式结尾吧。因为这依然是一个开放问题,而且并非大数据能解决。
© 本文版权归 NullPointer 所有,任何形式转载请联系作者。
© 了解版权计划
-
koko 赞了这篇日记 2021-09-15 21:01:39
-
鹿娜writing 赞了这篇日记 2021-09-12 18:17:38
-
blue 赞了这篇日记 2021-09-12 17:05:31
-
风引 赞了这篇日记 2021-09-12 16:57:40
-
Monica 赞了这篇日记 2021-09-12 16:36:20
-
黑潮 赞了这篇日记 2021-09-12 14:17:02
-
东青木 赞了这篇日记 2021-09-12 13:38:20
-
李约 赞了这篇日记 2021-09-12 13:36:25
-
Fingerbone 赞了这篇日记 2021-09-12 13:32:07
-
Sistine 赞了这篇日记 2021-09-12 12:23:40
-
学术疯狗 赞了这篇日记 2021-03-28 12:38:56
-
fansy 赞了这篇日记 2019-10-21 11:28:42
-
西贝的小熊猫 赞了这篇日记 2019-10-07 10:15:27
-
李海拉 赞了这篇日记 2019-02-03 05:07:12
-
caroharri 赞了这篇日记 2019-01-10 08:49:51
-
Y.story 赞了这篇日记 2018-09-29 08:56:59
-
苏兮 赞了这篇日记 2018-03-26 21:38:23
-
还不会开挖掘机 赞了这篇日记 2018-02-25 08:28:54
-
LukeBelieves 赞了这篇日记 2017-12-24 00:23:16
-
cp4 赞了这篇日记 2017-12-15 21:04:10
-
yb 赞了这篇日记 2017-12-13 19:02:36
-
[已注销] 赞了这篇日记 2017-12-10 00:05:30
-
shadow 赞了这篇日记 2017-10-27 15:11:07
-
🦦 赞了这篇日记 2017-08-30 11:00:59
-
ZZIF 赞了这篇日记 2017-01-06 08:51:39
-
Andy0831 赞了这篇日记 2016-10-07 20:12:55
-
[已注销] 赞了这篇日记 2016-09-16 13:33:17
-
小菠萝 赞了这篇日记 2016-07-14 18:13:37
-
东东的Easter 赞了这篇日记 2016-06-15 09:39:20
-
laiwana 赞了这篇日记 2016-04-01 17:51:48
-
我不是長街 赞了这篇日记 2016-03-23 07:19:49
-
Sisyphus 赞了这篇日记 2015-05-22 10:52:28
-
[已注销] 赞了这篇日记 2015-05-12 17:52:46
-
天天向上 赞了这篇日记 2015-05-08 17:53:25
-
畢懷德 赞了这篇日记 2015-02-24 01:39:30
-
jayoncen 赞了这篇日记 2015-01-11 00:56:09
-
data-ima 赞了这篇日记 2014-12-10 13:44:55
-
小葱酱 赞了这篇日记 2014-11-26 09:50:05
-
zodzod_张浩 赞了这篇日记 2014-10-10 07:49:44
-
枕巾 赞了这篇日记 2014-10-08 22:43:37
-
mAg 赞了这篇日记 2014-09-30 06:52:21
-
😎 赞了这篇日记 2014-08-12 13:21:06
-
沧浪水浊 赞了这篇日记 2014-06-23 02:16:59
-
muyun_ 赞了这篇日记 2014-06-20 03:03:35
-
[已注销] 赞了这篇日记 2014-05-26 20:42:57
-
Gaucho 赞了这篇日记 2014-05-18 06:18:12
-
宇宙公司贾总 赞了这篇日记 2014-05-12 20:00:12
-
比比 赞了这篇日记 2014-04-28 19:55:41
-
A 赞了这篇日记 2014-03-21 00:17:22
-
島人小山 赞了这篇日记 2014-03-14 02:50:39
-
Xylometazoline 赞了这篇日记 2014-02-28 13:57:09
-
柯嫘 赞了这篇日记 2014-02-21 02:13:01
-
毛豆不乖 赞了这篇日记 2014-02-15 21:03:18
-
Elaine-S 赞了这篇日记 2014-02-15 18:38:44
-
隔壁小王叔叔 赞了这篇日记 2014-02-15 11:00:56
-
mavisse 赞了这篇日记 2014-02-15 10:55:13
-
钟摆 赞了这篇日记 2014-02-15 09:50:18
-
杲逆犸 赞了这篇日记 2014-02-15 05:23:20
-
暖暖的完美 赞了这篇日记 2014-02-15 03:29:22
-
von 赞了这篇日记 2014-02-15 00:13:26
-
Shawn.w 赞了这篇日记 2014-02-15 00:02:54
-
[已注销] 赞了这篇日记 2014-02-15 00:01:34
-
设置昵称 赞了这篇日记 2014-02-14 23:47:35
-
雨中独舞 赞了这篇日记 2014-02-14 23:46:13
-
[已注销] 赞了这篇日记 2014-02-14 23:38:38
-
Mr. Anderson 赞了这篇日记 2014-02-14 22:36:13
-
MammothSteppe 赞了这篇日记 2014-02-14 21:26:08
-
念九 赞了这篇日记 2014-02-13 13:51:04
-
cger 赞了这篇日记 2014-02-12 19:57:42
-
东 赞了这篇日记 2014-02-12 16:41:57
-
湖心亭看雪 赞了这篇日记 2014-02-12 14:24:32
-
tattoo璇 赞了这篇日记 2014-02-12 13:29:59
-
其实我叫待定 赞了这篇日记 2014-02-12 00:02:05
-
愁容骑士 赞了这篇日记 2014-02-11 23:01:39
-
鱼冒泡O。O 赞了这篇日记 2014-02-11 16:23:37
-
+c 赞了这篇日记 2014-02-11 12:48:10
-
宅学家 赞了这篇日记 2014-02-11 10:31:34
-
逐日 赞了这篇日记 2014-02-11 10:15:15
-
利物浦冷风吹 赞了这篇日记 2014-02-11 06:57:56
-
[逃跑途中] 赞了这篇日记 2014-02-10 23:26:10
-
[已注销] 赞了这篇日记 2014-02-10 23:07:27
-
逢いたい 赞了这篇日记 2014-02-10 22:37:20
-
Nigredo 赞了这篇日记 2014-02-10 21:38:33
-
一生所爱 赞了这篇日记 2014-02-10 21:18:32
-
阿扬 赞了这篇日记 2014-02-10 20:58:38
-
沈序 赞了这篇日记 2014-02-10 20:44:14
-
泽连瑟尔斯基 赞了这篇日记 2014-02-10 20:40:02
-
天空城 赞了这篇日记 2014-02-10 19:52:43
-
黄小豆 赞了这篇日记 2014-02-10 19:51:57
-
Hesper 赞了这篇日记 2014-02-10 19:29:54
-
kevin 赞了这篇日记 2014-02-10 19:14:23
-
西西西 赞了这篇日记 2014-02-10 18:35:10
-
Infiniter 赞了这篇日记 2014-02-10 18:17:53
-
孔明 赞了这篇日记 2014-02-10 18:14:01
-
LostAbaddon 赞了这篇日记 2014-02-10 16:54:39
-
[已注销] 赞了这篇日记 2014-02-10 16:15:35
-
BBZ 赞了这篇日记 2014-02-10 16:00:14
-
CasperCheung 赞了这篇日记 2014-02-10 15:12:33
-
chuan 赞了这篇日记 2014-02-10 14:39:22
-
iExcalibur 赞了这篇日记 2014-02-10 14:30:51