历史/留档|asoul直播数据收集&分析测试发布
A-soul数据组
各位豆友好,这里是asoul数据组,致力于给出关于asoul直播的更详细的数据以及分析,同时也会发布一些数据中的小快乐给大家。数据来自于我们自己的抓取程序,弹幕、互动条数和其他记录数据的网站进行过比较,相差不大,数据情况基本准确。
现发出一些测试版本的数据,欢迎大家给出宝贵的意见。
本次的测试数据是以向晚生日会为例的直播数据收集&分析。
- 进场人数:43113
- 平均互动:6.05条
- 平均弹幕条数:4.43条
- Asoul相关粉丝牌参与人数:14632
- 占比总观众数的34%
- 互动人数:28753
- 参与互动观众的平均观看时长:96.56分钟
- 平均互动:9.07条
- 平均弹幕条数:6.64条
数据解释:
进场人数 : 只要进入直播间,不管有没有发言都会被记录,本质上是抓取的大家b站弹幕栏的进场信息然后存储。但目前存在一个问题就是睿站会在进场时随机杀掉一些,而且我们测试了一些账号,发现该问题与是否是高峰期(比如开播前)、账号的某种权重(三无小号更容易被杀)有关
平均观看时长 : 该数据是通过观众第一次入场开始作为计算基准,如果是更早提前入场的以开播时间为准记录。每一次发言和互动会更新计算基准,并将时间累计,最后平均到所有人身上。该计算方法只能最大程度的保证积极互动的观众的准确率(但也会偏低),所以就单独计算了一个互动人数观看时长。
互动情况

词频统计图
这里我们做了一个与asoul相关的专用词典进行切词尽量保证切词的准确性。
同时也做了一个同义词词典进行同义词替换以及错字替换,例如夹心糖会被正确收录到嘉心糖;阿笑死会被合并入啊笑死。

最低词频是1500
弹幕数量图
以三分钟为区间,统计该时间段内的弹幕总数

零点是正式开播时间(例如8点)
礼物数量图
以三分钟为区间,统计送出免费礼物和付费礼物的人次

零点是正式开播时间(例如8点)
舰长数量图
以三分钟为区间,统计开通舰长的人数

零点是正式开播时间(例如8点)
今日蚌埠住瞬间:
1. 检查数据的时候发现有两位老哥弹幕分别只发了4和6次,但是互动总数分别达到了320+和230+条。点进去细看,原来这两位老哥都是不说话,但是全程疯狂刷心动卡、比心和生日快乐这种小礼物。反向对比人穷屁话多的我,只想说这两位不善言辞老哥的手指还酸吗XD。
2. 睿站的直播数据流中通知消息只有6种,分别是弹幕消息、入场消息、老爷入场消息(老爷功能已经废弃)、舰长入场消息、以及两种sc消息。这两种sc的代码分别是SUPER_CHAT和SUPER_CHAT_JPN(即带有中译日的SC),甚至没有英文,很难不对狗罕见叔叔谔谔。
补充信息:
- 我们做了一个对于每周的粉丝直播统计,统计了例如互动全勤率、弹幕全勤率、观看全勤率等等,而且我们的算法本质上是互动越多拟合出来的观看时间越准确,因此我们后续还打算做一个每周的入脑观看时长天梯图。
- 由于我们的数据相对其他网站来说比较详细,可能有小伙伴会担心数据开盒问题。这个问题是客观存在的,比如我们开发的一位小伙伴在测试时就被看光了XD,但我们保证只发布加工过不含uid的数据,如果大家有感兴趣的部分,在大家提出后,我们也会以加工过的形式发出。
