豆瓣250算法浅析

麻油四

来自: 麻油四 组长
2008-01-03 10:43:48

×
加入小组后即可参加投票
  • 王卡

    王卡 (honest goodbye) 2008-01-03 11:34:38

    就这么几天,小组冒出了许多新人挖~

  • 麻油四

    麻油四 组长 楼主 2008-01-03 11:37:52

    从目前的分析来看,豆瓣250应该也采用了这种算法,其中的四项参数,R和V可以根据用户对电影的评分直接获得,而m和C两项参数则略为复杂。 先来说说C值,该值总体来说比较平稳,经过一段时间的观察和试算,应该是在3.8左右平稳上升。 应该这个平均分是比较高的,由于豆瓣采取的是5分制,折算成IMDB分有7.6了,这比上文提到的IMDB平均分高了近1分。如果这确实是数据库中所有电影的总平均分,那么可以推测豆瓣用户总体来说是比较“宽容”的,或者说更愿意对自己推荐的电影进行评分而对较差的电影则不予评价。 另一个参数m,是至关重要的一个阀值,即使一部电影的评分再高,如果总投票数不能达到这个阀值,也是不能上榜的。 由于豆瓣250排行榜每周更新一次,根据每周的排名情况,我们可以发现从250创设到现在,m值在短短1个半月内,由最初的1300左右增加至目前的1500左右,应该说,这样一个增幅是比较高的。上周,一直在榜单中的《L.A. Confidential》就因为没到跟上M的涨速而掉队,但于本周返回榜单。 m值的设定可以说一定程度上决定了整个榜单的取向,如果设定的较低,会使得榜单更容易被人为操纵,毕竟现在注册马甲不是很困难的事情;但设的高了,一些受众较少的优秀电影也会因为评分人数达不到及格线而被挡在榜单之外;极端的说,如果设定过高,留在榜单上的只能是一些“畅销”电影了。而豆瓣250有关这个参数的确定方式,是所有参数中最难以判定的。如果有朋友有相关的信息,不妨与大家分享。 以上的分析基于个人近期的统计分析,难免存在谬误,仅供有共同兴趣的朋友参考。

  • 战国客

    战国客 2008-01-03 13:10:44

    呵呵 有文化真好~~

  • 辣辣的皮特

    辣辣的皮特 2008-01-15 13:20:59

    贝叶斯,貌似在概率论的课上听说过,只是听说而已,60分飘过~

  • 零零漆很贰

    零零漆很贰 2008-04-19 01:08:52

    呵呵,没有研究过这个问题,不过看楼主说的感觉挺对。支持科学算法

  • 八面楚歌

    八面楚歌 (善恶在我,毁誉由人) 2008-04-19 23:34:16

    怎么那个式子不象贝叶斯啊

  • weiyiduji

    weiyiduji 2008-05-30 21:08:06

    [内容不可见]

  • kill8424

    kill8424 2008-08-18 10:07:29

    好牛啊,长知识了

  • 鱼非鱼

    鱼非鱼 (厨子搞学术,谁也挡不住) 2008-11-30 21:19:16

    近期打算按照该算法弄个豆瓣剧集250出来

  • edwardyang

    edwardyang (平安喜乐) 2009-02-11 13:11:38

    对上面分析的一点个人看法 豆瓣平均分3.8不知道是怎么算出来的,是影片总分和除以影片数,还是所有影迷总评分和除以所有影迷评分次数? 如果是前者,感觉不可能那么高。看来应该是后者 还有就是和imdb的比较,豆瓣是五分制,换算成十分后分数偏高很正常。因为豆瓣五分换算成10分后评分期望就偏高。比如在imdb假设打9分和10分的人一样多,9,10分的期望就是9.5分,而换成豆瓣,9,10分被统一归成了5星,期望相当与是10分。当然即使排除这个因素,换算后的平均分也比imdb要高。个人估计在7.2-7.3之间

  • edwardyang

    edwardyang (平安喜乐) 2009-02-11 13:16:44

    至于阀值1500个人感觉明显过高,据说imdb原来只有1250。要知道那里的热门影片10万以上的投票数是很正常的。豆瓣过5万的都很少 而且如果只有1000多票,想在贝叶斯公式计算后仍然进入top250是相当困难的。 所以个人感觉阀值在1000比较合适。 这样即使有人刷票影片暂时进入top250,该片就会引起其他影迷的关注,如果片子质量不过硬,自然会逐渐从榜单中退下来

  • 时间

    时间 2009-02-11 15:01:01

    膜拜LS

  • Sun

    Sun 2009-02-11 16:11:45

    不错这样的算法还有个问题 豆瓣成立时间不长,相信很多网友会对老电影的投票数偏少,造成了很多不错的老片达不到1500的阈值 另外,5星制,个人感觉太粗略了,远不如10分制精确。

  • 无人知晓🌈

    无人知晓🌈 (夫人不言 言必有中) 2009-02-12 08:53:04

    你怎么不播报了?

  • edwardyang

    edwardyang (平安喜乐) 2009-02-13 19:48:45

     另外,5星制,个人感觉太粗略了,远不如10分制精确---------------------------------------------------------------------------------------------的确的确,不过像时光网整到小数点后一位着实没有必要。10分整数分最好

  • 飞翔的荷兰

    飞翔的荷兰 2009-02-13 20:07:20

    不懂,大家数学都好强啊

  • ???

    ??? (神马) 2009-06-09 16:11:15

    据我所知 imdb会有会员属性的加权 比如此人看过的电影比较多,或者评论比较多,投票的加权和普通会员不同

  • 影志

    影志 2009-06-09 17:00:37

    1000阀值 还是可以给一些老片和冷片上榜的机会。

  • apple*

    apple* 2009-06-15 10:55:53

    这样算应该比较科学了

  • [已注销]

    [已注销] 2010-05-21 07:53:33

    [内容不可见]

  • 宇宙塑胶魔怪

    宇宙塑胶魔怪 (人生识字忧患始,姓名粗记可以休) 2010-05-21 08:35:11

    imdb的算法很科学

  • 乱七八糟鸡仔饼

    乱七八糟鸡仔饼 2010-05-21 10:33:45

    2009-06-09 16:11:15 马特陈 (懒·德莱耀希) 据我所知 imdb会有会员属性的加权 比如此人看过的电影比较多,或者评论比较多,投票的加权和普通会员不同 ------------------------------ +1

  • corpsefire

    corpsefire 2010-05-21 11:25:53

    imdb的算法是保密的吧,楼主从哪里搞来的

  • [已注销]

    [已注销] 2011-08-23 12:06:02

    [内容不可见]

  • echo

    echo (知行合一) 2012-11-28 17:35:18

    怎么那个式子不象贝叶斯啊 怎么那个式子不象贝叶斯啊 八面楚歌

    我理解LZ的意思是说,这里最后一个关于10个和1000个的例子中,1000个的可以认为它所包含的先验信息 显然比10个的要多,由此得出 1000个比10 个好的结论,这个思想是贝叶斯的而已,和公式无关

  • 囫几

    囫几 (Chop wood, carry water~) 2012-12-11 00:22:27

    mark

你的回应

回应请先 , 或 注册

197969 人聚集在这个小组
↑回顶部