【没落的985/211】Python爬取知乎8万字回答进行高校分析-阿里云开发者社区

【没落的985/211】Python爬取知乎8万字回答进行高校分析

2021-11-26 140

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 最近知乎一个“有哪些较原来没落的985/211院校？”的问题引起了很多人的关注，回答者各种分析，但是究竟哪些学校是公认最没落的却没有定论

最近知乎一个“有哪些较原来没落的985/211院校？”的问题引起了很多人的关注，回答者各种分析，但是究竟哪些学校是公认最没落的却没有定论

所以行哥尝试爬取了一共8万字的回答，通过统计的方式来找出公认最没落的学校，顺便从这些没落的学校里找出新的解读给大家分享一波，快看看有没有你的学校在里面[手动狗头]

爬取文字

分词

分析排名

机会

爬取文字

关于爬取知乎回答的代码，之前行哥有介绍过，总体就是获取知乎的问题号，利用api和正则表达式提取内容，具体可以看以下两篇推文（里面包含了源代码获取方式）

【安排】23行代码爬取知乎全部回答（内附源码和应用程序）

一分钟爬取知乎5646个知乎回答(内附代码)

分词

使用了一款高颜值的词云包来进行统计分析。stylecloud 是一位数据科学家Max Woolf基于wordcloud优化改良而成。并添加了一些有用的功能，从而创建出独特的词云。

关键是它只需要两行代码就可以直接生成词云，不要太简单。

# 公众号：一行数据
from stylecloud import gen_stylecloud
gen_stylecloud(file_path='知乎回答.txt')

生成效果如下：

词云图中分布了各种大学的名字，快看看能不能找到你的学校

分析排名

当然词云统计并没有进行量化，不能看到大家公认的没落学校，所以行哥将8万字中提到了学校做了一个统计，该统计通过大学校名的全称和简称分别进行统计，同时未考虑某些别称(如世一大，窝工等)

统计出的结果如下图所示

大学全称统计

大学简称统计

无论是校名全称排名还是简称排名，我们都可以看到南京大学是公认的没落院校第一名，虽然现在也很厉害，但是曾经却属于亚洲第一的中央国立大学，被拆分成3所985和4所211学校，可见相对于过去的落末程度

其次兰大，东大，南开等这些老牌学校，它们的没落各有各的原因，但总体都有一个很大共同点，它们的强势专业基本集中在环化材生领域，据说“21世纪是生物的世纪”[再次手动狗头]，估计还需要再等等把

机会

机会1:学校的没落意味着相对生源质量降低，竞争程度减少。对于想读研考不上热门学校热门专业的同学来说，这个排名也可以作为选学校的小小依据

机会2:后几名的某些学校，要么是名字太长在回答时写的别的简称（例如南七技校）没有统计出来，要么就是真正的没落了，没落到没人提了。但是这些学校也挂着211/985的牌子，可以作为考研的一个考虑哦

统计为0的学校

机会3:以点看面，无论是学校还是个人都无法逃脱时代大势的影响，已经上了环化材生大船的同学可得早点规划下自己未来，不然没落的不仅是学校了，还有.....

【没落的985/211】Python爬取知乎8万字回答进行高校分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【没落的985/211】Python爬取知乎8万字回答进行高校分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像