豆瓣活跃人口有多少

Hushlight
2008-04-10 14:04:41  来自: Hushlight

几个星期前,豆瓣推出了找朋友功能。我好奇的用gtalk & MSN 试了一下, 还真发现了一些联系人也在上豆瓣。但是这些人全部都是些连头像都没有的冬眠用户。
这让我觉得很有趣。可口可乐的谁谁谁说过,想象一下10亿中国人民每人花一元钱买我们的东西,这是一个多么庞大的市场。几个月前豆瓣刚宣布了注册人数超百万,据说豆瓣的用户黏着性高,受教育程度高,愿意花钱,想像这百万豆瓣用户每人花个几百买书买碟,这是一个多么庞大的市场。
但是,通过找朋友工具发现了这么多冬眠用户(其中还有马甲,囧),令我很好奇,豆瓣的百万注册用户中有多少活人?
下面我将对豆瓣用户进行分析以求得出较为令人(我自己)信服的数据:
首先,让我们做个假设1:
非冬眠用户会设置自己的城市
这点我觉得应该没什么争议,看下你的关注或者好友列表里有多少人没设置城市,有吗有吗,即使这些家伙可能半年都没出现在广播里。
好,认可了此点,让我们看下豆瓣里设置了城市所在地的人有多少。

中国(大陆) (177082)
香港 (2159)
United States (1391)
臺灣 (813)
Australia (765)

数据采集时间:公元2008年4月10日


这是前五名人数最多地区,显然,中国大陆占了绝大部分,第二名香港只有区区2159人,几乎可以忽略不记,更遑论三名以后。
经过估算所有地区加起来不会超过19W人口。考虑到极少数非冬眠但是不设置城市所在地的异类,我可以很大方的把这个数字加到20W。
好,这下子就把80万用户剔除去了。但是我们可以说这剩下的二十万就是活跃用户吗?俨然不行,至少在我的朋友加关注总共35人里——尽管他们都有头像有城市——就有超过7个处于人间蒸发状态,所以他们尽管非冬眠但绝非活跃
是否可以用我的朋友加列表的数据作为样本来进行下一步分析呢,结论是不行。理由有两个:
1.数据量太小,大凡学过数理统计的同学们都知道,样本量太小是不能得出可信结论的
2.能够让人关注的基本都是活跃用户。人们会去关注一个冬眠用户么,显然不会。所以这个样本不够客观。
那么,本着严谨求实的态度,吾惟另辟蹊径分析之(握拳)。现在是到了对“豆瓣活跃用户”做一个定义的时候了!
豆瓣是靠书评,影评,乐评起家,虽然他还有着诸如我去,小组,同城,日记等等越来越无用,哦不,华丽的功能,并且越来越向一个淫窝靠拢,但是我们要记住豆瓣的核心是清纯的清纯的清纯的,你说是不是是不是是不是(摇晃摇晃摇晃)
科科科~~
咳咳,刚才太激动了。现在提出假设2:
豆瓣活跃用户的主页一定是满当当而非空荡荡的。这一点不能像假设1那样显然易见,下面我将进行有理有据的证明。
把主页填满,就要访问豆瓣的内容(此处豆瓣的内容指的是上文证明的豆瓣核心内容)。
对豆瓣上内容的访问来源大约有三种:
1.通过google, baidu等搜索引擎。
2.通过豆瓣的搜索来查找某本书,电影。
3.经常蹲守在豆瓣上,看友邻的广播以及豆瓣猜你会喜欢。
再对这三种访问方式进行细分析:
第一种人很好推测,他通常是很精确的想了解某本书,电影来到豆瓣,看完就闪,不带走一片云彩。这种人的豆瓣主页一定是空荡荡的,显然是不属于“活跃用户”范畴内。
第三种人也很好推测,他起止是“活跃用户”,简直就是“骨灰用户”。他的豆瓣主页必然塞的满满当当。
需要详细分析的是第二种人。他的目的,不光是要了解,还有要添加“看过”,“想看”诸如此类的伟大目标。所以,他的豆瓣主页也是很满的。有人会说,也许这是个低调的用户,只看不添加,虽然活跃但是主页还是很空。唔,根据我最近看心理学与生活的心得,身为人类,每个人都有一颗不炫耀会死之心,但是在中国社会做人太高调会很惨,所以如果能遇上低调的炫耀机会,没有(中国)人会放弃!
你想啊,一个人他看完或者正在看《管锥篇》的序言,甚至只是想看,他会不会很想告诉别人我正在看一本值得阅读(炫耀)的书呢?但是,蹦出来抓住你遇见的每一个人说我看了啥啥啥是即高调又不靠谱还很没品的事情,哪能像豆瓣这样,轻轻一点,举手之劳间广播已经帮你润物细无声的昭告天下。再退一步,在豆瓣高度 SNS化的今天,哪个用户不希望被来看主页的小MM当成一个有知识有文化有品位的人呢?综上所述,活跃用户的豆瓣主页必然是满的。对了,我正在看的心理学与生活也是非常非常经典的书哦,低调的说。
当然,对于比较严格的人来说,这个活跃用户至少还应该添加点item,写点评论虾米的,通常来说,这种创造用户顶多占用户群20%,号称用户参与度最高的第二人生创造者也不过30%,考虑到国人的围观性格,创造性用户的比列乐观估计10%,也就是2万人。这个数字也忒难看了,我都看不下去。所以还是按照比较宽松的标准:“豆瓣主页看起来很满”来判断是否活跃好了。
好了,第二个假设也证明完了,相信大家现在一定都心悦诚服,科科。但是由于缺乏第一个假设那样现成的,详尽的数据支持,我决定采用方差分析法来计算。真是学好数理化,走遍天下都不怕呀!


为了做好此次统计,我将采集6组数据,每组5人【注1】,来计算活跃用户在非冬眠用户中的比列:
非冬眠用户标准:有所在城市设定
活跃用户标准:主页可以往下拉一页,最后广播时间在08年后
采集方法:以“北京”,“上海”,“广州”,“昆明”,“西安”作为城市关键词搜索用户,并在每组中的第2,4,6,8,10页抽取最后一个人,计算单组比例
统计方法:方差计算
工具:Windows XP Pro SP2 32bit 自带的计算器


【注1】,为什么要采集三十个样本,而不是六十个,三百个,原因我想你知道,我很忙(懒)


这篇文章已经是我写blog有史以来最大的一坨了,所以就不浪费时间列举我具体选了那些人作为样本,相信也没人有兴趣知道这些,结论:

北京组:60%
上海组:80%
广州组:20%
昆明组:40%
西安组:20%
http://www2.blogger.com/img/gl.photo.gif
Add Image
数据采集时间:公元2008年4月10日


经过计算,最终方差均值数据是:44%

20W*44%=8.8W

好了,历尽千辛万险,克服重重阻碍,我们终于获得了可靠的豆瓣活跃用户数(远目),八万八千人。
为了奖励辛苦看到这里的同学,献上珍藏帅哥美图一张:

   
Hushlight

2008-04-10 14:05:21 Hushlight

图贴不上来,有兴趣的可以到我的blog上看http://ring3.spacesbloggers.com/



Sout

2008-04-11 15:22:29 Sout (一觉醒来,天都黑了。)

楼主所言极是



fukafu

2008-04-11 20:49:43 fukafu (biu!biu!)

不是《管锥篇》,而是《管锥编》,可别告诉我你看过……
P.s我没看过,只知道名字

飘过



boks

2008-04-11 20:54:34 boks (愔愔然遁夫)

这篇发到豆瓣fans组比较靠谱吖 ~



無機客

2008-04-11 23:11:21 無機客 (无签名就等于有签名)

楼主的探讨甚是有道理。



seon

2008-04-11 23:26:32 seon (Anglophile)

我觉得活跃用户不用地名的也很多
差不多一半一半



melon"

2008-04-12 23:41:16 melon" ([ ])

首先,让我们做个假设1:
  非冬眠用户会设置自己的城市
  这点我觉得应该没什么争议,看下你的关注或者好友列表里有多少人没设置城市,有吗有吗,即使这些家伙可能半年都没出现在广播里。


第一个假设就不成立
很多活人都没设城市
我算一个



NullPointer

2008-04-13 01:10:16 NullPointer (京畿烟尘恶,不见西湖水)

这个讨论串里有4个加了城市(包括我这个乱入的),
4个没有加(包括楼主自己)。。。

所以。。。



melon"

2008-04-13 08:19:19 melon" ([ ])

ls的发现很有趣
哈哈



沧海客

2008-04-13 20:45:21 沧海客 (待我赶上前去,杀他个干干净净)

我也没有添加城市



打盹的拉布拉多

2008-04-30 20:04:15 打盹的拉布拉多 (深度工作中……为去北京而努力)

地域组这个不大靠谱,有很多人不加地域组,毕竟豆瓣是个小众和分众的地方;还有,没估计到上万人的大组,类似南周、品牌小组、冷笑话等这一块,这些组的人气不亚于一个中型论坛;不过你的思路挺牛逼,从城市所在地窃取了豆瓣的官方数据,哈哈,这点很佩服
不过回头来说,天涯显示的在线会员一般也不过是1万2左右,浏览人数在10倍左右,豆瓣有你现在统计出来的数量已经算不错,这可是活跃的注册用户呀~
回头说那个买碟的阿北,呵呵,天天吹牛自己的在线人数有多高,那是做给风投和潜在广告客户看的,没必要计较那~豆瓣还是小众和分众的平台,从阿北的去中心化的思路就能看出来了,或者再对比一下:你QQ里近200人的名单中——才几个上豆瓣?!我有一阵挂QQ签名:吃饭睡觉上豆瓣,没人鸟我豆瓣是吃的还是炒的。。。囧
最后还是佩服你的统计方法~哈哈,豆瓣毕竟不是网易的网友留言地方嘛~~~



崮小乐

2008-04-30 20:10:49 崮小乐 (大愚若智)

其实没加城市的还是有很多呢…而且豆瓣有无数搞怪添加城市的人,以豆瓣的理念来看,那个会不会是一条不可忽视的长尾呢?



春梦了无痕

2008-05-03 12:07:37 春梦了无痕 (老子真就信了你的那个邪)

貌似有一些道理的样子



南歌

2008-06-01 21:39:30 南歌 (忍着。高潮了再射。)

我就是不设置 城市的~~



小护士毒舌猫-虞兮虞兮奈若何

2008-06-05 16:12:16 小护士毒舌猫-虞兮虞兮奈若何 (想回家。)

可置信度是多少?



kzor

2008-06-05 17:07:07 kzor

重要假设我就不说了,从分析方法上说,这么不靠谱的分析似乎应该得出一个四分位区间之类的更可靠,而不是某个固定值。。。当然,你的统计结果离差也太大,有区间也没意义。
总之我的感觉是,你利用一个有趣的切入点,通过一系列有趣的方法,得到了一个不那么有趣的结果,这是很让人遗憾的。



夏天

2008-07-14 15:51:01 夏天 (整理知识体系ing)

同意安康,还有一个是活跃用户也有不标注地名的。。。



antidote

2008-07-14 16:40:43 antidote (耳语)

恩 创意的牛逼的~顶了



三  花

2008-07-26 21:13:20 三 花 (幼稚)

LZ辛苦了。。



Mr.Z@小老鼠

2008-10-18 16:04:51 Mr.Z@小老鼠

标记



已注销

2008-10-20 18:58:24 已注销

马克下,上课回来看



sue

2008-10-21 08:06:08 sue

没注明城市的我高调走过。。



邓若虚

2008-11-20 22:20:33 邓若虚 (No Such Obligation)

加城市那一说我感觉不太科学,当然下面那个也是有漏洞的。
尽管方法不太妥当,但是怀疑得很牛。



Eisley^慢半拍

2008-11-26 08:53:30 Eisley^慢半拍 (07090045)

应该有三分之一的人没加城市吧



ink & color

2008-11-26 15:11:18 ink & color (原版明信片,外邮专卖。)

娱乐第一,大家别苛责LZ
能写整一篇出来也不容易
写得很有趣!



风云卷!习惯地放风

2008-12-01 20:15:00 风云卷!习惯地放风

数据该更新 与时俱进



2009-01-31 16:35:37 nsrainbow

看完后发现几个亮点:
1、“据说豆瓣的用户黏着性高,受教育程度高,愿意花钱,想像这百万豆瓣用户每人花个几百买书买碟,这是一个多么庞大的市场”这恰恰是豆瓣的弱点
2、"我有一阵挂QQ签名:吃饭睡觉上豆瓣,没人鸟我豆瓣是吃的还是炒的。。。囧 "嘿嘿
3、“虾米”lz懂闽南话?



alsie

2009-01-31 16:51:01 alsie (愁容骑士)

标记下+1



郭襄发奋图强

2009-02-01 08:57:01 郭襄发奋图强 (I need a hardcore hero)

最近刮起扫黄打非整治不良作风活动,不知活跃人口是否减少。



╱

2009-02-06 16:55:54

不是所有点了所在地的都活跃……嗯嗯





这个小组的扯淡学员也喜欢去   · · · · · · 

mm搭讪团团长罗小亦以及她的妈妈
mm搭讪团团长罗小亦以及她... (369)
我们爱创新学科
我们爱创新学科 (1422)
狂飙突进读书青年团
狂飙突进读书青年团 (1405)
门萨的娼妓
门萨的娼妓 (695)
2B青年扯淡艺术中心
2B青年扯淡艺术中心 (617)
拜乳狗教
拜乳狗教 (37)