大家好,我是志斌~
今天《觉醒年代》这部剧可谓是再次冲上热搜,因为它的剧情竟然通吃了许多省市的高考语文作文!这可真是谁看了这部剧,就真的偷偷乐了!
志斌上豆瓣上搜了一下这部剧,发现它的评分是9.3分,在打分极其严格的豆瓣上竟然能得9.3分,那这部剧一定是一部非常经典的剧!
本文通过爬取《觉醒年代》豆瓣短评,进行数据可视化分析,在后台回复【觉醒】即可获得全部代码。
01数据采集
在之前的文章我们已经对豆瓣短评的数据采集有过详细的介绍,有不懂的小伙伴可以看看这篇文章我用python分析《你好,李焕英》豆瓣30万+评论,终于找到了它大卖的原因。这里我们直接展示爬虫核心代码:
for page in range(80): try: params = ( ('start', str(page * 20)), ('limit', '20'), ('status', 'P'), ('sort', 'new_score'), ('comments_only', '1'), ('ck', 'qN8_'), ) r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies) yonghumingchengs = re.findall('<a title="(.*?)href.*?">', r.json()['html'], re.S) youyongshus = re.findall('<span class="votes vote-count">(.*?)</span>', r.json()['html'], re.S) pinglunshijians = re.findall('<span class="comment-time " title="(.*?)">', r.json()['html'], re.S) pingluns = re.findall('<span class="short">(.*?)</span>', r.json()['html'], re.S) for i in range(20): a = a + 1 sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1], pinglunshijians[i].split()[1].split(":")[0], pingluns[i]]) print(f"已爬取完第{page}页数据,存入{i + 1}条数据....") except: wb.save("全部.xlsx") print(f"共爬取{page}页数据,存入{a}条数据....")
02数据清洗
01 合并Excel
因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:
for i in files: wb = openpyxl.load_workbook(i) sheet = wb['豆瓣评论'] for i in range(2,502): A_cell = sheet[f'A{i}'] B_cell = sheet[f'B{i}'] C_cell = sheet[f'C{i}'] D_cell = sheet[f'D{i}'] E_cell = sheet[f'E{i}'] a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value] sheet_1.append(a)
想要详细了解批量合并Excel的读者可以看看这篇文章教你如何快速合并内容相似的Excel文件。
02 导入评论数据
用pandas读取合并后的影评数据并预览。
df = pd.read_excel('全部.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容']) print(df.head())
查看数据类型
查看字段类型和缺失值情况,符合分析需要,无需另做处理。
df.info()
03可视化分析
我们现在对爬取的短评数据来进行可视化分析。
01 各类评论占比
这部剧有5.8w+的短评,竟然好评占到了97%,真不愧是在豆瓣上都能得到9.3分的神剧!没刷的小伙伴,赶紧抽空刷起来!
02 主演提及次数
这部电视剧中,我选出了六位大家较为熟悉的人物,来看他们的提及次数,其中陈独秀先生的提及次数最多是214,其次是鲁迅先生和李大钊先生,分别是113和111。
这也很符合电视剧的剧情背景,那个年代陈独秀先生、鲁迅先生和李大钊先生的思想确实走在前列!
那让我们来看看大家在影评中都是怎么评价陈独秀先生的。
各类星级占比
从图中我们可以看出,有75.3%的观众给这部剧打了5星,19.3%的观众打了4星,打1星和2星的观众加起来才1.7%。这样看来观众是真的十分肯定这部电视剧!
04
评论发表时间分布
从图中我们可以看出,大部分影评发表时间在21点-次日0点,看来大部分的观众观影时间是在夜晚,可能是因为电视播放在这个时间段的缘故。
04小结
1. 本文仅供学习研究使用,提供的评论仅供参考。
2. 本人对影视的了解有限,言论粗糙,还请勿怪