手把手教你实现『B站直播』弹幕实时分析

简介: 大家好,我是阿辰,今天来教大家如何实现『B站直播』弹幕实时分析思路:采集直播弹幕,然后通过情感分析,不同时间点的评论数,高频词统计

大家好,我是阿辰,今天来教大家如何实现『B站直播』弹幕实时分析

思路:采集直播弹幕,然后通过情感分析,不同时间点的评论数,高频词统计

一、采集直播弹幕
首先在B站随意打开一个直播房间

1.查找弹幕链接
通过F12查看network

可以看到是post请求,经过验证只需要房间号就可以获取弹幕!

2.构造post请求
roomid = "22080761"
url = 'https ://api.live.bilibili.com/xlive/web-room/v1/dM/gethistory'
headers = {

'Host': 'api.live.bilibili.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',

}
data = {

'roomid': roomid,

}
html = requests.post(url=url, headers=headers, data=data).json()
直接返回json数据

二、实时采集
为了达到实时采集的目的,需要将采集弹幕的代码封装成函数,然后每个几秒调用一次这个函数(比如这里定为5秒)

1.定时代码
def sleeptime(hour, min, sec):

return hour * 3600 + min * 60 + sec

second = sleeptime(0, 0, 5)
while 1 == 1:

time.sleep(second)
print('do action')
###5秒采集一次
get_msg()

这里的get_msg是采集弹幕函数

2.写入TxT

with open(filename,"a+", encoding='gb18030') as f:
    for content in html['data']['room']:
        # 获取昵称
        nickname = content['nickname']
        # 获取发言
        text = content['text']
        # 获取发言时间
        timeline = content['timeline']
        # 记录发言
        msg = timeline + '*' + nickname + '*' + text
        ###不存在则添加
        if msg not in msg_data:
            f.write(str(msg)+"\n")

文本以房间号命名

三、情感分析
情绪判断,返回值为正面情绪的概率,越接近1表示正面情绪,越接近0表示负面情绪
先简单来看一个例子

text1 = '这部电影真心棒,全程无尿点'
s1 = SnowNLP(text1)
print(text1, s1.sentiments) # 这部电影真心棒,全程无尿点 0.9842572323704297
通过SnowNLP库实现文本的情感分析

roomid = "22080761"
filename = roomid + ".txt"

读取当前txt

with open(filename, "r", encoding='gb18030') as f:

msg_data = f.readlines()

Sentiment_list = []

正面

count1 = 0

负面

count2 = 0
for i in msg_data:

    text = i.split("*")[2]
    t = SnowNLP(text)
    if t.sentiments > 0.5:
        count1 = count1 +1
    else:
        count2 = count2 + 1

Sentiment_list.append(count1)
Sentiment_list.append(count2)
print(Sentiment_list)
从弹幕文本文件中读取出每一条弹幕,然后进行情感分析,最后统计正面评论数和负面评论数

正面弹幕13条、负面弹幕10条。

四、不同时间点评论数分析
同样还是读取弹幕文本文件,之后就以分钟为间隔进行统计

获取当前小时

h = time.strftime("%Y-%m-%d %H", time.localtime())
开始统计

for i in msg_data:

    time_list.append(i.split("*")[0].split(":")[1])

data_time = list(set(time_list))
data_time.sort()

只取三个

if len(data_time)>7:

data_time = data_time[-7:]

name = [h+":"+i for i in data_time]
value =[time_list.count(i) for i in data_time]
print(name)
print(value)

五、高频词统计
思路:通过SnowNLP库对文本(弹幕)进行分词然后会分好的词进行统计排序

先将弹幕合并成文本

for i in msg_data:

#if ymdhm in i:
    text_list.append(i.split("*")[2])

需要操作的句子

text = "".join(text_list)
text = text.replace("\n","")
print(text)
s = SnowNLP(text)
开始进行统计,然后取出前5

list_all = s.words
dict_x = {}
for item in list_all:

dict_x[item] = list_all.count(item)

sorted_x = sorted(dict_x.items(), key=operator.itemgetter(1), reverse=True)
re_word_list = []
re_word_list_name = []
re_word_list_data = []
count = 0
for k, v in sorted_x:

if count==5:
    break
if len(k)>1:
    re_word_list_name.append(k)
    re_word_list_data.append(v)
    count = count+1

re_word_list.append(re_word_list_name)
re_word_list.append(re_word_list_data)
print(re_word_list)

六、总结
本文主要是讲解了任何实时采集直播弹幕,然后通过SnowNLP库等对弹幕数据进行统计。

如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:直播弹幕 ,获取完整代码!

最后说一声:原创不易,求给个赞、在看、评论

------------- 推荐阅读 -------------

高质量推荐

可视化分析中国500强排行榜数据

.实战讲解四种不同爬虫解析数据方法,必须掌握!

一键查询明星个人信息,并以知识图谱可视化展示

爬取展示『王者荣耀』2020年-2021年2月收入流水线

‍‍‍‍

专注:python、爬虫、数据分享、数据可视化

相关文章
|
3月前
|
Web App开发 编解码 视频直播
视频直播技术干货(十二):从入门到放弃,快速学习Android端直播技术
本文详细介绍了Android端直播技术的全貌,涵盖了从实时音视频采集、编码、传输到解码与播放的各个环节。文章还探讨了直播中音视频同步、编解码器选择、传输协议以及直播延迟优化等关键问题。希望本文能为你提供有关Andriod端直播技术的深入理解和实践指导。
70 0
|
编解码 JSON 数据格式
实现在线直播源码高质量直播体验重要功能
在线直播源码平台中会出现各种各样问题,而应对这些问题,在线直播源码平台又开发出不同的功能,云端混流转码就是其中重要功能之一,它为平台带来了很大的优势。
直播平台源码功能分享:直播回放功能的实现
这个直播平台源码功能可以将主播的直播内容录制下来保存在直播平台云端中,用户进入到主播首页就可以看到这个直播平台源码功能,点击后就可以播放主播以往储存的直播内容。
直播平台源码功能分享:直播回放功能的实现
直播源码搭建技术弹幕消息功能的实现
今天我要分享的这个直播源码技术功能也是大家非常常见的,这个功能不仅仅应用在直播源码平台中,在各大影视app中也一直被应用,那这个功能是什么那?
直播源码搭建技术弹幕消息功能的实现
|
存储 缓存 监控
直播系统聊天技术(九):千万级实时直播弹幕的技术实践
疫情期间,线上演唱会是一种很常见的直播娱乐形式,由于线下社交距离的限制,线上形式演唱会比以往更火爆,而对技术的要求也更高。 本文基于网易云信针对TFBOYS某场线上演唱会的技术支持,为你分享千万级在线用户量的直播系统中实时弹幕功能的技术实践,希望能带给你启发。
438 0
|
数据采集 编解码 搜索推荐
短视频直播系统,如何实现高质量直播场景
短视频直播系统,如何实现高质量直播场景
|
前端开发
语音直播系统源码,加速平台流量变现的重要功能
语音直播系统源码,加速平台流量变现的重要功能
一对一直播app开发,分析一下直播实现的流程
网络速度的提升,就可以支持高清视频的传输,并且传输速度大大提升,对优化画质和降低延迟都非常有帮助。一对一直播app开发技术的发展,对优化系统和提升用户体验,具有很强的推动力。
|
存储 数据采集 边缘计算
视频聊天源码以一对一直播为主,如何提高直播质量
视频聊天源码熟悉直播不仅要靠流媒体技术、服务器和CDN,还要使用多种功能机制,优化直播功能体验,比如减低直播延迟,提高直播间打开速度等。
|
编解码 算法 开发工具
直播泛在化的今天, 如何快速搭建不同场景的直播系统
目前,不同的直播业务场景的直播需求越来越多,不同的直播需求对应着不同的技术侧重点。本篇演讲将通过介绍阿里云的直播技术架构,从客户的角度讲解如何集成阿里云的直播产品,描绘在阿里云视频云直播系统内进行快速的场景搭建效果,展示其直播系统的技术特点。
直播泛在化的今天, 如何快速搭建不同场景的直播系统