我们文本分析了贾跃亭2017年全部公开信,发现他近期喜欢用“责任”“致歉”

简介:

当贾跃亭发声时,他在说些什么?他说的话网民听进去了吗?

2018年工作日第一天,贾跃亭凭借一封对《北京证监局责令贾跃亭回国履责通告》的回应函再次占据了各大科技、商业网站的头条。在回应函中,他提到美国FF公司融资已经取得了重大进展,并表示,“针对债务问题,我会尽责到底”。

近半年,在乐视危机下,贾跃亭频频发声,而“债务”“责任”这些词似乎不绝入耳。尽管感官如此,文摘菌还是想用文本分析统计一下,在2016-2017年,贾跃亭的多次发言中,到底他最爱说哪些词,以及公众对他的看法有到底如何。

作者统计了2016-2017年贾跃亭公开发布的公开致辞,总共7次(次数太少我们就不用爬虫直接手动找了),包括新品发布、公司致辞和致用户信等,共15k字左右;同时,我们还搜集了全网“贾跃亭”相关舆情百万余条超过2个G的数据,以期了解公众对其看法。

简而言之,我们想知道,2017年发了这么多公开信的贾跃亭,他说的话网民们听进去了吗?

当然,整个分析过程本身也颇有趣,后台回复贾跃亭”获取本次文本分析的所有数据和代码包哟~

关键词云图:当贾跃亭发声时,他在说些什么?

首先,文摘菌想看看,在这两年中,贾跃亭在公开发言中最喜欢使用的词语是什么。

尽管贾跃亭的公开信字数略少,从文本分析中,文摘菌还是得出了一些有趣的信息。

文本分析小贴士:对于关键词提取,词频统计是最常用的方法,而其文摘菌没有采取词频统计的方法,因为词频统计的逻辑是:一个词在文章中出现的次数越多,它就越重要。因而,笔者采用的是TF-IDF(term frequency–inverse document frequency)的关键词提取方法:它用以评估一字/词对于一个文件集或一个语料库中的其中一份文件的重要程度,字/词的重要性会随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

由此可见,在提取某段文本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段文本具有重要意义的关键词。

作者利用jieba从语料中抽取出关键词,并选取TOP500关键词来绘制关键词云图。

其中排名前十的词语分别是:乐视、生态、硬件、我们、互联网、上市公司、用户、战略、实现、价值。

da6b3c675f5dc4c20f5c68e2325c3423a9a12aee

词汇分散图:用户、变革少了,责任和债务来了

接下来,文摘菌想要了解贾跃亭在近两年发布的公开信中,有哪些词汇随时间变化,出现频率有所改变。

专(zhuang)业(bi)一点说,就是某些关键词汇基于时间的数量分布和他们的位置信息(the location of a word in the text),利用Lexical dispersion plot(词汇分散图)进行分析,可以揭示某个词汇在一段文本中的分布情况(Produce a plot showing the distribution of the words through the text)。

文本分析小贴士:文摘菌先将待分析的文本(贾跃亭的公开发言)按时间顺序进行排列,分词后再进行Lexical Dispersion Plot分析。因此,文本字数的累积增长方向与时间正向推移的方向一致。图中纵轴表示词汇,横轴是文本字数,是累加的;蓝色竖线表示该词汇在文本中被提及一次,对应横轴能看到它所处的位置信息,空白则表示无提及。蓝色竖线的密集程度及其位置代表了该词汇在某一阶段的提及频次和所在年月。

从上面的关键词和主题词中,文摘菌挑拣出“乐视”“资金”“变革”“生态”“布局”“硬件”“用户”“承诺”“责任”“质疑”“债务”“歉意”这10个关键词汇进行分析,结果如下:

8bd771eed9fc280cdd2e3b6ace1900b9193873d6

从分析结果可以看出,【乐视】【生态】作为品牌词汇,在贾跃亭2016年到2018年的公开信中频频出场。在2017年底最近一次公开信中,【乐视】【生态】依然是关键词之一。

而【硬件】【用户】【变革】这些偏“营销“的词语,在2016年,不管是新品发布还是公司致辞,都曾长期成为贾跃亭公开信的”爱词“。而最近,尽管依然有所提及,但出现频率非常之低。

相反,在最近一两次发言中,首次出现了【歉意】【债务】【责任】这样的字眼。

从打“营销”牌到“情怀”牌,个中缘由,文摘菌在此不做过多评论,各位客官可自行体会。

贾跃亭的话,网民们听进去了吗?

贾跃亭说了什么不重要,关键是大家有没有听进去。

要回答这个问题,文摘菌统计了客户端、微博、论坛、网页和微信公众号上与“贾跃亭”相关的所有信息,并进行了分析,生成了关键词云如下:

f1ba13d38e883bf8679abd7c19a7c6633f08a6e7

数据统计工具:新浪微舆情 数据统计时间:2017年1月1日-2017年12月31日

分析中可以看出,在与贾跃亭相关的全部信息中, 被提及频次最高的词语分别为“破产”、“公告”和“危机”。而“指责”“痛苦”“牛逼”“野蛮”“违约”等词也充斥着全网。

此外,与贾跃亭相关度上来看,“乐视”“乐视网”“汽车”关系最为密切,其次,“宋洪斌”“资产”等词也与其关系很近。

7d4b9143700d8202447e2ba1b399e11237bd7193

数据统计工具:新浪微舆情  数据统计时间:2017年1月1日-2017年12月31日

当贾跃亭说“致歉”“责任”时,我们想到什么?

为了搞清楚网民对贾跃亭近段时间表现的看法,文摘菌特意利用新浪微舆情下载了全网舆情数据(包括微博、微信、论坛、客户端、政务、报刊博客、外媒等信息发布渠道),鉴于数据量太大,我们这里只分析2017.12.01-2018.01.03期间的全网数据,希望从这些数据中,看看贾跃亭自己在最近一次公开信中的描述,和网络上对他的舆论到底有何差异。

下载后的数据经过分词和转码(由ANSI转为UTF-8格式,便于后续的词向量模型训练),文本大小总计1.2GB。

然后利用gensim下的word2vec进行词向量训练,结果如下:

5ff70f8ad41267a013da4a369f3a0f406ced5512

经过词向量训练处理后,可利用cosine余弦对词汇之间的关系进行测算,文摘菌选取了“贾跃亭+责任+歉意”作为检索条件,即“当讨论‘贾跃亭+责任+歉意’时,我们想到了什么”,结果展示如下:

c63525f592486b210909b8a4458c4a9ef0e1db78

从上面的TOP50关键词中,“跑路”、“鬼话”、“套现”、“假药(谐音“贾跃”)”、“有责任”等负面词汇映入眼帘,贾跃亭的互联网形象确实跌落谷底。

此外,“娱乐圈”、“金融诈骗”、“活该”等词的出现,则主要归因于20位明星投资乐视,包括张艺谋、郭敬明、孙红雷、黄晓明等红极一时的影视娱乐界大腕,如今也都深陷这场资本游戏,也让这一话题声量更加高涨。

接下来,文摘菌还将“贾跃亭”这个词向量变成dense vector,进行了文本相似度计算。挑选出之前报道中出现频率较高的词汇,进行相似度计算。

根据计算结果,与”贾跃亭“相似度最高的词语是“骗子”这个词,其次依次为“反思”、”史玉柱“、”情怀“、“意气风发”、乔布斯“。

b41a8ea9061f258b38307dda36d45538ce8708c0

从去年年初的舆论危机到现今的资产大幅缩水、形象坍塌,一年多的时间,乐视和贾跃亭都没有做出一个令人满意的公关和答复。

想当年,憧憬“赶腾讯超阿里赛百度”的贾布斯是何等的雄姿英发,豪言壮语,竭心尽力的想要创建一个宏大的互联网软硬件生态圈~然而,盘面铺的太开,步子迈得太大,成长的太迅猛,跌落神坛的进程有了加速度也就不足为奇了,正应了《桃花扇》里的那段话:“俺曾见,金陵玉树莺声晓,秦淮水榭花开早,谁知道容易冰消!眼看他起朱楼,眼看他宴宾客,眼看他楼塌了...


原文发布时间为:2018-01-04

本文作者:文摘菌

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“大数据文摘”微信公众号

相关文章
|
存储 安全 Java
一文带你搞懂OAuth2.0
一文带你搞懂OAuth2.0
444 0
|
关系型数据库 MySQL Devops
docker容器刚启动就停止 — 运行mysql 报错 mysqld: [ERROR] Fatal error in defaults handling. Program aborted!
docker容器刚启动就停止 — 运行mysql 报错 mysqld: [ERROR] Fatal error in defaults handling. Program aborted!
2186 1
|
设计模式 架构师 Java
2024到来!一到五年Java工程师想跳槽,大环境不好,怎么破?
会不会因为裁员潮,市场上工作机会比往年跳槽季更少,同时求职者因为失业或裁员潮带来的恐慌心理,很多人在找工作时更怕错过机会而不做过多思考和选择就入职。这样的形势下跳槽或者求职时,该如何判断和做出选择?
|
传感器 物联网 5G
5G的三大主要特性:解锁未来无限可能
5G的三大主要特性:解锁未来无限可能
1923 1
|
容灾 关系型数据库 数据库
阿里云RDS服务巴黎奥运会赛事系统,助力云上奥运稳定运行
2024年巴黎奥运会,阿里云作为官方云服务合作伙伴,提供了稳定的技术支持。云数据库RDS通过备份恢复、实时监控、容灾切换等产品能力,确保了赛事系统的平稳运行。
 阿里云RDS服务巴黎奥运会赛事系统,助力云上奥运稳定运行
|
人工智能
写歌词的技巧和方法入门指南:点亮音乐创作梦想,妙笔生词智能写歌词软件
对于怀揣音乐创作梦想的人来说,写歌词是关键一步。本文介绍写歌词的技巧和方法,推荐使用《妙笔生词智能写歌词软件》辅助创作,涵盖 AI 智能写词、押韵优化等功能。积累灵感素材,确定主题,构建歌词结构,使用简洁而富有感染力的语言,让创作更轻松。
|
缓存 前端开发 容器
window.__POWERED_BY_QIANKUN__
window.__POWERED_BY_QIANKUN__
|
12月前
|
API 容器
【HarmonyOS Next开发】Navigation使用
Navigation是路由容器组件,包括单栏(Stack)、分栏(Split)和自适应(Auto)三种显示模式。适用于模块内和跨模块的路由切换。 在页面跳转时,应该使用页面路由router,在页面内的页面跳转时,建议使用Navigation达到更好的转场动效场景。
549 8
【HarmonyOS Next开发】Navigation使用
|
Prometheus 监控 Cloud Native
在 Java 中,如何使用线程池监控以及动态调整线程池?
【10月更文挑战第22天】线程池的监控和动态调整是一项重要的任务,需要我们结合具体的应用场景和需求,选择合适的方法和策略,以确保线程池始终处于最优状态,提高系统的性能和稳定性。
2156 2
阿里云服务器购买后,怎么申请开具发票?
阿里云用户可在用户中心的发票管理页面开具电子或纸质发票。首次开票需设置发票抬头,支持个人或企业,可选增值税普通或专用发票。个人账号无法直接开企业发票,需变更实名认证。发票税率因产品而异,通常为6%或13%。发票抬头可修改,纸质发票邮寄费用由阿里云承担(特殊情况除外)。电子发票同样可报销。更多详情见阿里云帮助中心。
856 106