我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

简介: 听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。 我选取了大约30个覆盖从程序员,朋克,基佬到女权主义者,中国大妈,穆斯林的能够覆盖所有人群的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。

听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。

我选取了大约30个覆盖从程序员,朋克,基佬到女权主义者,中国大妈,穆斯林的能够覆盖所有人群的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。

首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。

这样,我得到了小一百个装满歌词的文件,鼠标滑过就能感觉到从里面溢出来的文艺气息,我感觉一阵忧郁袭来,为了写接下来的代码,我吹掉了一瓶可乐。

接下来,我开始了对这些歌词(约42万字)的分析

首先是情绪分析,通过对这些歌词的自然语言处理,我知道了不同歌手们吟唱的到底是开心还是不开心的事情:

数值的分布比较平均,但大致可以看得出有三个分类,一类是特别开心的,例如郝云。但是我一开始也不太懂,为什么丢火车的情绪也这么高,后来听了几遍他们的歌,发现他们虽然唱腔惨兮兮的,但是歌词还是充满正能量的,丢火车乐队歌词中出现次数最多的三个词分别是「永远」「晚安」「倔强」,这些都是正面情绪的词。第二类则是比较忧伤的,以我们熟悉的逼哥为代表,他们的歌词中充斥着孤独,沉默,泪水等词语。虽不暴力,但是多少有一些黑暗。

第三类则以赵雷为代表,比较平静,就像一个朋友给你讲故事,不疾不徐,娓娓道来,里面也有开心,也有难过,但总体情绪趋于中值。这也许解释了为什么赵雷这么晚才火起来的原因——平淡的情绪较难快速给人以强烈的冲击。但无论如何,好的音乐总会被人们发掘。

基于某种趣味,我又分析了一下其他风格的音乐的情绪:

民谣的情绪很丰富,而摇滚的情绪则大多是负面的,人们说,没有愤怒就没有摇滚,这话至少在歌词的情绪上是正确的。

民谣歌手最喜欢什么季节?

通过对歌词的分析,这个问题也可以解决:

其中,春天出现了81次,冬天出现了74次,夏天和秋天各出现了70和47次。由此可见,最受欢迎的是春天和冬天,最不受欢迎的是秋天。但我个人觉得秋天挺好的,秋高气爽,菜价便宜。

同样的,我也分析了歌手们最喜欢的城市,结果如下:

可以看得出,北方城市完全战胜了南方城市,成了在歌词中被唱的最多的地方,特别是北京,一共出现了81次。说到一线城市,人们会说北上广深,但是在民谣的世界里,北京绝对是不可撼动的存在。南方城市只有成都勉强露了几个照面。作为一个成都人,我对此还挺高兴的。

难以理解的是,虽然北方城市大获全胜,但是歌手们却更多的念叨着「南方」而不是「北方」,「南方」比「北方」多出现了大约5.7%。

另一个我感兴趣的问题是,民谣歌手们是在向前看还是向后看,是往未来寄托希望,还是缅怀过去?

看得出,民谣歌手是在往前看的,至少是活在当下的,「明天」这个词在歌词中出现的次数最多,接着是「今天」和「昨天」,而「前天」和「后天」则几乎可以忽略不计,这也是可以理解的,比如说「我拿青春赌明天」,这听上去很美好,如果要说「我拿青春赌后天」乃至于「我拿青春赌下个月5号」,这听上去就像一个赌徒发疯了。

在我的统计中,出现最多的几个意象是:再见,姑娘,夜空,孤独,快乐。

如果把民谣拟人化,那应该是一个喜欢南方的北京小伙子,觉得世界很操蛋,但骂归骂,到底是对生活有希望的,憧憬着明天,在春天感到快乐,在冬天感到孤独,没有女朋友,但有几个纠缠不清的前女友,经常和她们见面,见面的地方可能是成都,昆明,南京,上海,武汉。。。。。

原文发布时间为:2017-02-09

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
存储 数据库 数据安全/隐私保护
OBCP第七章 OB迁移-备份恢复技术架构及操作方法
OBCP第七章 OB迁移-备份恢复技术架构及操作方法
445 0
|
前端开发 应用服务中间件 nginx
nginx中配置不输入端口(指定地址)访问项目的方法
nginx中配置不输入端口(指定地址)访问项目的方法
942 0
|
SQL Oracle 关系型数据库
浅谈mysql数据库迁移至国产化达梦数据库
项目要求mysql数据库数据需要转到达梦数据库,对于达梦数据库的了解尚且不多,一开始使用手动转SQL脚本,效率极低,非常容易出错。达梦数据库的资料实在有限,经过后期研究,发现原来DM已经有自己的数据迁移工具,使用之后非常方便。对mysql数据库转达梦数据库的操作流程做一个简要分享。
6969 0
浅谈mysql数据库迁移至国产化达梦数据库
|
10月前
|
机器学习/深度学习 人工智能 Java
谈谈AI时代到来以及35岁危机双重压力下,作为一个普通开发者的想法
在AI快速发展的背景下,Java后端开发人员可通过系统学习转型至AI领域。建议步骤包括:1. 学习Python编程;2. 掌握数据处理与分析工具;3. 学习机器学习基础及框架;4. 深入研究深度学习;5. 结合Java与AI技术;6. 参与开源项目和社区;7. 持续更新知识并实践;8. 寻找转型机会。尽管转型需要时间和努力,但前景广阔。
436 4
|
10月前
|
人工智能 Java 程序员
通义灵码深度评测:AI程序员是效率革命,还是昙花一现?
在AI编程浪潮中,阿里云推出的通义灵码以“全栈AI程序员”定位强势入局。通过两周深度体验,这款基于通义大模型的工具展现了从代码补全到工程架构、跨语言开发、单元测试及错误排查的强大功能。它不仅大幅提升了开发效率,如节省60%以上的脚手架搭建时间,还在多文件协同和架构感知方面表现出色。尽管在复杂业务逻辑和框架特性理解上仍有提升空间,通义灵码已展现出颠覆性价值,使开发者能聚焦核心业务创新。
|
数据可视化 Swift
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型,再次以小博大,以 4B 参数,带来超越 GPT-3.5 的性能。并且,量化后仅 2GB 内存,端侧友好。
小钢炮进化,MiniCPM 3.0 开源!4B参数超GPT3.5性能,无限长文本,超强RAG三件套!模型推理、微调实战来啦!
|
JSON Dart API
Flutter 使用图片和资源
Flutter 使用图片和资源
339 2
Flutter 使用图片和资源
|
存储 安全 芯片
内存卡无法格式化怎么办?这5个办法可以帮你
在日常生活中,我们常常使用内存卡来存储照片、视频、文档等重要数据。然而,有时候在尝试格式化内存卡时,我们可能会遇到无法格式化的问题。这种情况令人十分烦恼,因为这不仅影响了内存卡的使用,还可能导致数据丢失。那么,当内存卡无法格式化时,我们应该怎么办呢?本文将为您提供一些实用的解决方案,帮助您解决内存卡无法格式化的问题。
内存卡无法格式化怎么办?这5个办法可以帮你
|
存储 并行计算 Java
一文读懂 PyTorch 显存管理机制
一文读懂 PyTorch 显存管理机制
1123 1
|
存储 弹性计算 安全
阿里云服务器8核16G配置可选实例规格、收费标准及2024年优惠价格参考
阿里云服务器8核16G配置多少钱?可选实例规格有哪些?2024年的优惠价格是多少?根据阿里云2024年的收费标准及活动价格来看,8核16G配置云服务器的价格为3084.36元1年。阿里云服务器8核16G配置可选的规格有二十几个,不同实例的价格有所不同,下面是8核16G配置可选实例规格详解及优惠价格表。
2071 0
阿里云服务器8核16G配置可选实例规格、收费标准及2024年优惠价格参考