文本特征提取 2|学习笔记

简介: 快速学习文本特征提取 2

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本特征提取 2】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15502


文本特征提取 2

 

内容介绍:

一、评论时间分布情况

二、观测每周评论数据变化情况

三、分词去停用词

 

一、评论发布时间分布情况

数据转化,需要做一些基本操作,要把数据做些转化。创建时间就需要把它转化成一个日期的时间格式, panda 中有一个函数 to_datetime, 可以把 datatime 中的 creation_time 转化成标准的时间格式,一个是创建时间,一个是回复引用的时间,这是日期常用的一些属性。

image.png

 

二、观测每周评论数据变化情况

接下来做一个绘图,绘图会使用到一个函数即 subplots, 里面有参数可以设置图像的大小。反过来参数上的一个是图,另一个是画布。除此之外还会使用到 pandas 数据框里面的汇总函数 groupby 。按照两个字段进行汇总,汇总之后要进行计数,也就是对 groupby 汇总进行什么样的操作。

计数之后会给其一个名字 nickname, 最后用函数 unstack 分成行和列展开。

现在有两个码 ‘hour’ 和 ‘weekday’, 用 unstack 把它们分开一个做成行一个做成列。

在数据框 df 即 datafriend 当中,里面的前12条记录在 head 后面的数据框中可以填入12。也可以直接用数据框来绘图,数据框功能很强大,因为在 ax1 中绘图,图上面的线型就是一杠和一点(“—.”)代表线的一个风格,最后进行运行,得到数据框。

image.pngHour 是汇总第一关键字, weekday 是第二汇总关键字, hour 作为行, weekday 作为列。

image.png在图例当中,不同颜色代表0到6,也就是星期一到星期天,0表示星期天,横坐标表示的是小时。从图中可看出星期一到每周日用户评论情况趋势相同,用户活跃时间主要集中在8点到20点时段,深夜活跃度低可能大部分用户在睡觉。

image.png评论长度于评分关系情况,评论长度可以单独给其起一个词段,在数据框当中很方便, content_learn 就是评论内容的长度,用 content 里面的 str 函数来处理长度,要注意数据框中强大的字符串处理函数。在做处理文本数据挖掘中,大量时间都在做文本处理,所以要掌握数据框中各种的简单处理函数提高效率。

image.png以下是绘图结果,评分是1到5分,结果可以看出1星的用户评论长,说明不满意的用户提供更多信息。

 image.png


三、分词去停用词

做文本特征处理需要进行分词,分词先获取停用词,下载停用词表。通过 open 打开停用词表,下载 word_list 变量,这是一个借表格式。

image.png具体的分词过程中,先把 data 中的两个字段 “content” 和 “score” 单独拿出来放到一个 data1 的数据框当中。在 data1 里面就是两个字段。

image.png用 jieba 进行分词,会使用到两个高级函数 “apply” 和 “lamba”。 在 data1 [‘content’]这一列评论内容中引用到一个 apply 函数, apply 函数括号中的参数中用到的是另外一个函数,此函数功能强大,效率非常高。括号里面应该用到一个快速函数方法 lamba 还有 lamba 中的参数。

参数处理中会有空格,把 “jion” 与 jieba.cut 连接起来。 Jieba cut 是分词,其后 x 是传进来的数据框 data1[‘content’],也就是每一行评论由 cut 进行分词,此外还会放到  data1[‘seg_words’] 这一列当中。

image.png分词的结果有5条,每个词之间都会空格。

image.png

相关文章
|
Java API PHP
【亲测有效,官方提供】php版本企查查api接口请求示例代码,php请求企查查api接口,thinkphp请求企查查api接口
【亲测有效,官方提供】php版本企查查api接口请求示例代码,php请求企查查api接口,thinkphp请求企查查api接口
588 1
|
人工智能 测试技术 iOS开发
微软Phi-3,3.8亿参数能与Mixtral 8x7B和GPT-3.5相媲美,量化后还可直接在IPhone中运行
Phi-3系列是微软推出的一系列高效语言模型,旨在在移动设备上实现高性能。该系列包括 Phi-3-mini(38亿参数)、Phi-3-small 和 Phi-3-medium,它们在保持紧凑的同时,性能媲美GPT-3.5和Mixtral。模型通过精心筛选的数据集和优化训练策略,如数据最优化和阶段训练,实现高效能。 Phi-3-mini可在iPhone 14上运行,占用约1.8GB内存。这些模型在多个基准测试中展现出色性能,推动了AI在移动设备上的应用,增强了用户隐私和体验。虽然目前仅发布技术报告,但源代码和权重即将开放下载。
428 1
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的连锁超市会员管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的连锁超市会员管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
250 1
|
机器学习/深度学习 人工智能 分布式计算
阿里云机器学习PAI介绍
阿里云机器学习PAI介绍
338 1
|
安全 Java 应用服务中间件
当遇到非法 URL 参数时,如何保障网页正常打开
访问如`http://example.com?a@b=1`的链接出现400 Bad Request错误,这是因为Tomcat不允许请求目标中含有非法字符。Spring Boot 2可通过配置`server.tomcat.relaxed-query-chars`来允许特殊字符,但这样做可能引入安全风险。因此,建议在Nginx层使用`rewrite_by_lua_block`和`ngx.redirect`进行重定向,将非法字符替换为合法形式,如`http://example.com?ab=1`,同时记录日志以监控。此方案能避免直接修改后端代码,提高安全性。
720 0
|
运维 监控 Linux
linux脚本自动化运维任务
Linux自动化运维通过脚本提升效率,涵盖服务管理(启停服务、异常恢复)、系统监控(资源警报)、日志管理(清理分析)、备份恢复、补丁更新、自动化部署(如Ansible)、网络管理、定时任务(cron)和故障排查。结合shell、Python及工具,形成高效运维体系。
393 3
|
人工智能
AI绘画提示词案例(宠物
AI绘画提示词案例(宠物
969 0
|
存储 缓存 算法
分页存储
分页存储
384 0
QGS
|
API 数据安全/隐私保护 索引
手拉手JavaFX UI控件与springboot3+FX桌面开发(上)
手拉手JavaFX UI控件与springboot3+FX桌面开发
QGS
358 1
|
存储 安全 网络安全
微力私人网盘通过cpolar端口映射,成功实现远程访问本地电脑!
微力私人网盘通过cpolar端口映射,成功实现远程访问本地电脑!
332 0