豆瓣电影TOP250是怎么算出来的?豆瓣算法工程师为你解密哦~~
来自: 签名书鉴别师(http://xhsd.360doc.com)
影迷们经常关注的电影排行榜里,一部由100人评出9.0分的电影,和一部由10000人评出8.0分的电影,谁应该排在前面呢? 这是我们算法工程师时常会面对的问题。 一些深度影迷可能会想到 imdb.com (互联网电影数据库) 所采用的贝叶斯公式[见附注],这个公式的思路就是通过每部影片的[评分人数]作为调节排序的杠杆:如果这部影片的评分人数低于一个预设值,则影片的最终得分会向全部影片的平均分拉低。 由此可见,平衡评分人数和得分,避免小众高分影片排前,是这个计算方法的出发点。可问题在于:调节整个榜单的排序主要依赖于这个[评分人数预设值]。如果它设置的很低,那么最终的排序结果,就是每部影片自身评分从高到低在排序;如果它被设置得过高,那么只适用高曝光率的影片。据说 imdb.com 的这个预设值从500一路调整到了25000,遗憾的是这个算法仍然无法很好的解决他们的问题。 我们看看国内电影市场的现状。2013年上映的《疯狂原始人》两个月内在豆瓣电影得到了13万人次的评分,而1974年上映的《教父2》,到目前为止的评分总人数还不到10万人。近几年观影方式的多样化以及影院观影的持续火爆,使得新近上映的影片很轻松地就能获得大量的评分,相较之下,老片子的曝光机会少了很多。显然,继续调节 [评分人数的预设值] 已无法满足当前国内电影排行榜的实际需求。 如何解决这个问题呢?对算法工程师而言,我们通常会先用最基本的算法模型来应对,然后针对该算法带来的问题再修改并衍生出新的算法。比如针对这里的[评分人数预设值],我们可以分出老片和新片两个排行分别对待,也可以把时间因素考虑在内,如此等等。 不过这次我们决定换个做法。 在重新审视过 [豆瓣电影TOP250] 这一产品之后,我们提炼出两个关键指标: 1 它应该具备人群的广泛适应性。 例如一些动漫作品,因为拥有大量的粉丝,容易得到高分。如果采用 imdb.com 的榜单公式计算,这些影片的排名就会很靠前,但它们显然不适合被推荐给非动漫迷。 我们的解决办法,是将电影划分为若干分类,每一分类对应着喜欢此类有显著代表性的人群。如此一来,排序问题就变成了推荐问题,即把某部影片分别向所有类人群做推荐,能被推荐给越多人群的电影也就越具备广泛性。 实际上,实验的结果也证明了《肖申克的救赎》这类电影的人群广泛度远远超越了《EVA》这样的动漫作品。 2 它还需要具备持续关注度,不能昙花一现。 1957年的《十二怒汉》时至今日仍然被人津津乐道,而一些票房大片上映时非常红,过后就乏人问津。如何解决他们的排序关系? 我们取得每部影片在不同时间周期内的收藏人数和评分,将其汇成一条收藏曲线,再分析不同的曲线及其间关系,计算相应的分数。 这样,更新后的算法便初步形成了。算法更新后,榜单产生了一些变化,具体哪些变化?这就去看看吧! 再说两句题外话,其实依靠简单的维度去做排序的榜单,我们平时也见的很多。这也许能解决一时的问题。对比简单排序甚至人工编辑的方式,一个算法模型在结果展示上可能没有优势,但面对环境因素的应变和扩展性上,算法有能力自我学习和进化,相信这也是产品生命力的一种体现吧。 附录: imdb.com 的top榜单公开公式 The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate: weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C where: R = average for the movie (mean) = (Rating) -单部电影的得分 v = number of votes for the movie = (votes) -单部电影的有效评分人数 m = minimum votes required to be listed in the Top 250 (currently 25000) -入选top250榜单所需最低的有效评分人数 C = the mean vote across the whole report (currently 7.0) -所有影片的平均分 Tags: 算法, 豆瓣电影
-
w30 赞了这篇讨论 2023-02-17 21:43:26
-
尖叫蓝莓酥 赞了这篇讨论 2022-03-09 01:13:42
-
汪韫 赞了这篇讨论 2021-11-17 09:32:08
-
何然 赞了这篇讨论 2021-03-28 23:53:24
-
乐 赞了这篇讨论 2021-02-22 08:56:22
-
圈圈马 赞了这篇讨论 2021-01-25 08:09:35
-
Leon 赞了这篇讨论 2021-01-25 08:06:35
-
Vic 赞了这篇讨论 2020-12-06 22:31:41
-
叩其两端 赞了这篇讨论 2020-06-09 09:44:13
-
信 赞了这篇讨论 2020-06-09 08:42:09
-
南北 赞了这篇讨论 2020-01-03 17:01:05
-
Radicalis 赞了这篇讨论 2019-11-17 07:06:21
-
兔牙 赞了这篇讨论 2019-09-24 16:27:01
-
骊山语罢清宵半 赞了这篇讨论 2019-06-22 10:22:41
-
三横一竖两个火 赞了这篇讨论 2019-03-01 13:38:55
-
Jeffrey 赞了这篇讨论 2019-01-22 10:23:10
-
孙庆 赞了这篇讨论 2018-11-29 16:22:25
-
李承灏 赞了这篇讨论 2018-11-10 08:27:25
-
那里 Zupid 赞了这篇讨论 2018-07-11 17:59:27
-
孟浪 赞了这篇讨论 2018-04-24 15:46:02
-
魚俄尼索斯 赞了这篇讨论 2017-12-22 19:50:02
-
抱抱 赞了这篇讨论 2017-12-16 17:24:39
-
早晨从中午开始 赞了这篇讨论 2017-11-13 20:17:56
-
askvey 赞了这篇讨论 2017-10-05 20:40:51
-
Roxanne珩 赞了这篇讨论 2017-08-07 00:18:35
-
[已注销] 赞了这篇讨论 2017-08-01 23:07:10
-
Cariny 赞了这篇讨论 2017-06-22 09:26:35
-
我不叫小c 赞了这篇讨论 2017-06-06 19:49:14
-
Lebold 赞了这篇讨论 2017-03-09 16:35:17
-
姜奈生 赞了这篇讨论 2017-02-16 15:30:46
-
Tous Les Jours 赞了这篇讨论 2017-01-26 16:58:24
-
有风盈袖 赞了这篇讨论 2016-11-21 22:51:15
-
宅咬瑶 赞了这篇讨论 2016-10-30 21:11:12
-
wJt 赞了这篇讨论 2016-09-22 21:35:52
-
北纬33° 赞了这篇讨论 2016-09-12 17:17:57
-
神户酩人 赞了这篇讨论 2016-09-04 14:50:36
-
Chosen-Huang 赞了这篇讨论 2016-08-02 08:03:51
-
Arthur 赞了这篇讨论 2016-06-27 18:59:21
-
Sloane 赞了这篇讨论 2016-04-20 17:23:11
-
(yi) 赞了这篇讨论 2015-11-17 03:41:35
-
elan 赞了这篇讨论 2015-11-12 11:53:34
-
小黄鱼 赞了这篇讨论 2015-09-01 18:02:48
-
巴巴洛 赞了这篇讨论 2015-08-15 15:22:46
-
﹎最高境界﹎ 赞了这篇讨论 2015-06-14 08:46:06
-
豆友120392055 赞了这篇讨论 2015-06-03 19:00:18
-
签名书鉴别师 赞了这篇讨论 2015-04-30 14:44:07
-
Xavier 赞了这篇讨论 2015-04-30 13:57:15
-
Holy Panda 赞了这篇讨论 2015-04-20 22:21:42
-
fc 赞了这篇讨论 2015-03-31 16:58:27
-
Piupiuye 赞了这篇讨论 2015-03-03 14:04:41
最新讨论 ( 更多 )
- 豆瓣开发者 (签名书鉴别师)
- uu们,怎么删除提醒呀? (梦未晞晴人)
- 【2014版豆瓣网使用技巧大全】申请注销账号 (签名书鉴别师)
- 如何查看已注销账号的内容呢? (钟绮淼)
- 求助:豆瓣怎么删除提醒记录 (攻乐乐)