Python | 数据挖掘,WordCloud词云配置过程及词频分析

简介: 一. 安装WordCloud 在使用WordCloud词云之前,需要使用pip安装相应的包。 pip install WordCloud pip install jieba 其中WordCloud是词云,jieba是结巴分词工具。
一. 安装WordCloud
在使用WordCloud词云之前,需要使用pip安装相应的包。
  pip install WordCloud     

  pip install jieba
其中WordCloud是词云,jieba是结巴分词工具。
问题:在安装WordCloud过程中,你可能遇到的第一个错误如下。
error: Microsoft Visual C++ 9.0 is required. Get it from http://asa.ms/vcpython27
7a9d07709c743bdcdf9154a0afff67378812f753
解决方法也很简单,下载VCForPython27安装(Microsoft Visual C++ Compiler for Python 2.7)。但是在微软下载总是没响应。
这是最大的问题,下面我自己提供一个CSDN的地址供大家下载。下载完成,可以进行安装响应的库函数。
资源地址:
http://download.csdn.net/detail/eastmount/9788218
baeaea04beee93f162c18c7a07a26443e11c86b5
安装完成之后,可以正常运行代码啦。
二. 简单词云代码
下面这部分代码参考老曹的,希望对你有所帮助。
老曹说:什么是词云呢?词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。
代码如下:
a6344de52204fc7e72a0dfa70c0e3ae96f3ed24c
这是中文编码问题,下面讲解解决方法。
三. 中文编码错误及解决
在WordCloud安装的目录下找到WordCloud.py文件,对源码进行修改。
ca2cd87bdd8ad59870289ca618e682ebf02ec399
注意,此时运行代码还是报错,因为需要在同一个目录下放置msyh.ttf字体文件供程序调用,如下图所示,这是原来的字体DroidSansMono.ttf。
6ec36bc9060dc7863bab7672a3f205a016faf68f
也可以采用下面的代码:
 wordcloud = WordCloud(font_path = 'MSYH.TTF').fit_words(word)
四. 照片背景的词云代码
下面进一步深入,假设存在一个图 "sss3.png",核心代码如下:
6c1682a0c4e2686d9985dc68e9590897bf2f50d7
原文发布时间为:2018-09-18
本文作者: 上海小胖
本文来自云栖社区合作伙伴“ Python专栏”,了解相关信息可以关注“ Python专栏”。

相关文章
|
2月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1464 1
|
2月前
|
监控 安全 程序员
Python日志模块配置:从print到logging的优雅升级指南
从 `print` 到 `logging` 是 Python 开发的必经之路。`print` 调试简单却难维护,日志混乱、无法分级、缺乏上下文;而 `logging` 支持级别控制、多输出、结构化记录,助力项目可维护性升级。本文详解痛点、优势、迁移方案与最佳实践,助你构建专业日志系统,让程序“有记忆”。
269 0
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
453 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
2月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。

热门文章

最新文章

推荐镜像

更多