工作中关于数据那点事
扒知乎数据发现:截止2015年7月26日凌晨,有802位喜欢用数据回答问题的知乎er、38091个纯数据答案。翻看这些知乎er的回答,发现他们多数都有“数据控”特征:数据即是真理,数据代表一切、反映一切。再看这38091个纯数据答案,这些回答中103个答案契合主题、857个答案可以作为问题补充而不能作为问题回答,其余答案皆是牵强附会。
一个很有趣的现象:喜欢用数据回答问题的知乎er大多以为自己看穿了问题本质,回答的字里行间多充满了优越感;而这些纯数据的答案平均赞数为143(排除异常数据),这数据比知乎目前的平均赞数高出许多。这也难怪,相较于空口白话,数字这个天然带有“第三方属性”的符号更易获得人们信任。
不过容我先下个结论:这些喜欢“摆数字、讲道理”的知乎er多数都是傻逼。接下来我们谈点电视台让播的原因:
1、所有的数据都有水分
记得和位研究生朋友交谈,他的导师接了个研究项目,要他免费打零工。这个项目是国家层面的行业数据统计工作,分别外包给多个院校教授,分别负责不同部门。这位研究生导师是不干活的,主力便是他的苦逼研究生。数据统计工作据他而言相当地枯燥无聊,没有人在统计新的数据,人们都是拿着上一年的数据加加减减凭感觉获得今年的数据报告。他的导师自然是知道的。
很讽刺,国家层面的数据统计工作的主力按照人们想象应该是专业机构、专家学者,而多数基础且重要的数据收集工作却是研究生。
国家层面的数据统计尚有如此漏洞,怀揣各种目的(公关、宣传等)的第三方统计报告水分只能更大。多数喜欢数据作答的知乎er并没有分辨水分大小的能力,不知道从哪爬来了几个数字便理所当然地认为自己掌握了真理。
2、数据也会“说谎”
美国统计专家达莱尔·哈夫有本传世之作——《统计数字会撒谎》,它从统计学专业角度谈了很多关于“数字的谎言”。我其实并不相信相对平庸的知乎er掌握了这么高深的“撒谎之道”,更愿意相信他们在运用这些数字的时候其实已经被骗。
查了下知乎上有关于“数据说谎”的问题,正好省了我举例「数据会说谎」的真实例子有哪些?
3、数据模型、分析方法的缺失
但凡有点互联网经验的人,多少都会掌握几个常用的数据统计工具:百度指数、Google热点、淘宝指数、视频指数、微指数(统计网站集合,自取:数据统计网站集合)。在回答问题时,他们习惯于将这些数据杂乱的拼凑在一起,加上自己粗浅地解说组个答案骗骗猴子。
在一个“分析某手机品牌前景”的问题中,某人居然简单的将百度指数、淘宝指数的相关手机品牌对比变得出了相关结论。你确定不是猴子派来的逗比吗?
“手机前景分析”如果你想从数据角度来看,单纯的搜索指数并不能得出前景分析。以我外行人的粗浅认知,都知道要构建科学的数据模型来进行多维度分析:搜索指数、净推荐值、媒体指数、好评度等等。这些数据相互关联,分别决定了产品中极为重要的数据:关注度、购买转化率、口碑传播、重复购买率等。
这些数据于该公司而言至关重要、关乎生死,你只挑选其中一两项便下结论,难道不是傻逼?更遑论分析的是该公司前景,需要结合行业大势,只取量少许行业对手(行业主导者只字未提)又怎能说明问题?
最普遍的分析法是“SWOT分析法”,从企业自身的竞争优势、竞争劣势、机会和威胁四个维度分析的结果显然要比简单的列数据要好多了。
尬尴的是:除了caoz用过数据思维回答过问题外,专业的数据人员其实很少在知乎上“摆数据,讲道理”,更多的是外行人利用“些微信息差”(互联网外人士不常用网上数据分析工具)用些粗浅的认知误导别人。这种现象很符合“一瓶子不满半瓶子晃荡”的老话。
更为尬尴的是:这种貌似非常“理性”的人、答案在知乎普遍受欢迎。讲真,傻逼不是错,出来误导别人就是你的不对了。
一个很有趣的现象:喜欢用数据回答问题的知乎er大多以为自己看穿了问题本质,回答的字里行间多充满了优越感;而这些纯数据的答案平均赞数为143(排除异常数据),这数据比知乎目前的平均赞数高出许多。这也难怪,相较于空口白话,数字这个天然带有“第三方属性”的符号更易获得人们信任。
不过容我先下个结论:这些喜欢“摆数字、讲道理”的知乎er多数都是傻逼。接下来我们谈点电视台让播的原因:
1、所有的数据都有水分
记得和位研究生朋友交谈,他的导师接了个研究项目,要他免费打零工。这个项目是国家层面的行业数据统计工作,分别外包给多个院校教授,分别负责不同部门。这位研究生导师是不干活的,主力便是他的苦逼研究生。数据统计工作据他而言相当地枯燥无聊,没有人在统计新的数据,人们都是拿着上一年的数据加加减减凭感觉获得今年的数据报告。他的导师自然是知道的。
很讽刺,国家层面的数据统计工作的主力按照人们想象应该是专业机构、专家学者,而多数基础且重要的数据收集工作却是研究生。
国家层面的数据统计尚有如此漏洞,怀揣各种目的(公关、宣传等)的第三方统计报告水分只能更大。多数喜欢数据作答的知乎er并没有分辨水分大小的能力,不知道从哪爬来了几个数字便理所当然地认为自己掌握了真理。
2、数据也会“说谎”
美国统计专家达莱尔·哈夫有本传世之作——《统计数字会撒谎》,它从统计学专业角度谈了很多关于“数字的谎言”。我其实并不相信相对平庸的知乎er掌握了这么高深的“撒谎之道”,更愿意相信他们在运用这些数字的时候其实已经被骗。
查了下知乎上有关于“数据说谎”的问题,正好省了我举例「数据会说谎」的真实例子有哪些?
3、数据模型、分析方法的缺失
但凡有点互联网经验的人,多少都会掌握几个常用的数据统计工具:百度指数、Google热点、淘宝指数、视频指数、微指数(统计网站集合,自取:数据统计网站集合)。在回答问题时,他们习惯于将这些数据杂乱的拼凑在一起,加上自己粗浅地解说组个答案骗骗猴子。
在一个“分析某手机品牌前景”的问题中,某人居然简单的将百度指数、淘宝指数的相关手机品牌对比变得出了相关结论。你确定不是猴子派来的逗比吗?
“手机前景分析”如果你想从数据角度来看,单纯的搜索指数并不能得出前景分析。以我外行人的粗浅认知,都知道要构建科学的数据模型来进行多维度分析:搜索指数、净推荐值、媒体指数、好评度等等。这些数据相互关联,分别决定了产品中极为重要的数据:关注度、购买转化率、口碑传播、重复购买率等。
这些数据于该公司而言至关重要、关乎生死,你只挑选其中一两项便下结论,难道不是傻逼?更遑论分析的是该公司前景,需要结合行业大势,只取量少许行业对手(行业主导者只字未提)又怎能说明问题?
最普遍的分析法是“SWOT分析法”,从企业自身的竞争优势、竞争劣势、机会和威胁四个维度分析的结果显然要比简单的列数据要好多了。
尬尴的是:除了caoz用过数据思维回答过问题外,专业的数据人员其实很少在知乎上“摆数据,讲道理”,更多的是外行人利用“些微信息差”(互联网外人士不常用网上数据分析工具)用些粗浅的认知误导别人。这种现象很符合“一瓶子不满半瓶子晃荡”的老话。
更为尬尴的是:这种貌似非常“理性”的人、答案在知乎普遍受欢迎。讲真,傻逼不是错,出来误导别人就是你的不对了。
还没人转发这篇日记