文本分类 下|学习笔记

简介: 快速学习文本分类 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本分类 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15523


文本分类 下

 

内容介绍

一、TextCNN、TextRNN、Bert

二、文本分类流程

三、深度学习的方法

四、文本分类的流程

 

一、TextCNN、TextRNN、Bert

image.png

RNN可以用双向的LSTM,那么前面的话,图一是选节时节网络,杜森感知器。图二是循环神经网络,然后在下面到这个Bi模型可以带两大步骤,一个月训练。一个微调。

 

二、文本分类流程

发展过程当中,现在用的比较多的还是机器学习方法,因为深度学习的话要补一些内容的

image.png文本分类的流程,用机器学习的方法的话,。最左边的文本带标签的,带类别的,是有监督的分类,要做传统机器学习要做特征提取。关于特征提取有一些方法,基于一些词典提取一些词袋。特征提取里面到底哪一个特征好坏,后面可以用一些特点选择的一些方法,如降维,特征选词的一些方法。选择一些分类器进行文本的分类,分类器可以选择那些传统的机器学习的。

列举一些GBDT学习方法 如,随机森林,XGBoost,这都是一些GBDT学习的方法。那么今天学习里面这个XGBoost,当然会有更新的发展。叫做机器学习数据挖掘 有竞赛叫倚天剑和屠龙刀,基本上那些大赛前几名都会用到GBDT学习方法。一样道理,文本分类,是有监督分类技术,后面模型完成需要评测,测试。评估。模型部署是新的文本过来做预测,以上是机器学习的方法。

 

三、深度学习的方法

image.png深度学习跟之前特别大的差异是不需要特证工程和特征选择的内容嘛,机械学习做了特征提取和特征选择。

深度学习不需要人工干预,自动化特征提取。绿色圆圈代表深层神经网络,多层神经网络。

自动特征提取,主要是选择神经网络的模型。像这些模型可能在当中会用一些技巧,用一些词向量表示的一些方法的选择

时代发展快,用现在的学习方法去解决问题,小组可以用深度学习去解决,如从民生的文本里面去提取一些民生关注的内容,关注的热点,重点,焦点。

 

四、文本分类的流程

跟传统机器学习和深度学习相比较有一些差异。

image.png关于决策树劣势是容易过拟合。随机森林优缺点是视觉上不太容易解释,过度拟合很容易发生等等。

条件随机场是做作文本序列分析,基本上是一个标配,一般都要用到。像有些专业,做信息管理,情报,商业分析。刚开始做条件随机场是比较抽象的。深度学习是现在这个时代的宠儿是应该去掌握的

以上是文本分类技术概述内容,给文本分类的一个理论课的介绍就到这里,里面一些公式推导就不一一列举。

相关文章
|
网络协议 虚拟化
76Linux - VMware虚拟机三种联网方法( NAT网络地址转换: 默认使用VMnet8 )
76Linux - VMware虚拟机三种联网方法( NAT网络地址转换: 默认使用VMnet8 )
404 0
|
6月前
|
传感器 人工智能 智能设计
邀请大学生用AI技术助力乡村振兴!“挑战杯”阿里云赛题有哪些值得关注?丨云工开物
第十九届“挑战杯”中国青年科技创新“揭榜挂帅”擂台赛——人工智能主擂台赛在上海启动。赛事聚焦城市治理、乡村振兴等领域,由阿里云等企业发榜,提供算力与AI工具支持。其中,“以AI助力乡村振兴”专项赛邀请高校师生围绕浙江开化县、江西遂川县的文化与特产设计文旅产品,推动传统文化与现代技术融合,为乡村振兴注入新活力。赛事现已开放报名,欢迎全国高校师生参与。
|
2月前
|
Java API 开发工具
百宝箱开放平台 ✖️ Java SDK
百宝箱提供Java SDK,支持开发者集成其开放能力。需先发布应用,准备Java 8+及Maven环境,通过添加依赖安装SDK,并初始化客户端调用对话型或生成型智能体,实现会话管理、消息查询与文件上传等功能。
1327 0
百宝箱开放平台 ✖️ Java SDK
|
7月前
|
Android开发 开发者
HarmonyOS实战:3秒实现一个自定义轮播图
本文介绍如何在HarmonyOS中快速实现一个自定义轮播图。通过使用Swiper控件,结合LazyForEach懒加载技术提高性能,并实现循环播放、自动播放、自定义播放间隔、横向/竖向轮播及自定义指示器等功能。文章详细解析了技术实现步骤,包括数据源接口的实现和指示器的定制,帮助开发者轻松上手,建议点赞收藏!
302 1
|
机器学习/深度学习 数据采集 算法
基于Apriori关联规则的电影推荐系统(附python代码)
这是一个基于Apriori算法的电影推荐系统概览。系统通过挖掘用户评分数据来发现关联规则,例如用户观看某部电影后可能感兴趣的其他电影。算法核心是逐层生成频繁项集并设定最小支持度阈值,之后计算规则的置信度。案例中展示了数据预处理、频繁项集生成以及规则提取的过程,具体包括用户评分电影的统计分析,如1-5部电影的评分组合。最后,通过Python代码展示了Apriori算法的实现,生成推荐规则,并给出了一个简单的推荐示例。整个过程旨在提高推荐的精准度,基于用户已评分的电影推测他们可能尚未评分但可能喜欢的电影。
基于Apriori关联规则的电影推荐系统(附python代码)
|
监控 Java 开发者
Java线程池调优指南###
本文深入探讨了Java线程池的工作原理与调优策略,旨在帮助开发者理解线程池的核心参数及其对应用性能的影响。通过实例分析,揭示如何根据具体业务场景合理配置线程池,以实现资源高效利用和系统稳定性的平衡。 ###
|
存储 安全 Java
(三)死磕并发之深入Hotspot源码剖析Synchronized关键字实现
关于源码分析如果不是功底特别深厚的小伙伴可能需要用心的去细心咀嚼,千万不要抱着看一遍就能懂的心态学习,不然最终也没有任何作用。
200 5
|
XML 安全 JavaScript
goctl 技术系列 - text/template 深入讲解
goctl 技术系列 - text/template 深入讲解
|
存储 分布式计算 分布式数据库
《HBase MapReduce之旅:我的学习笔记与心得》——跟随我的步伐,一同探索HBase世界,揭开MapReduce的神秘面纱,分享那些挑战与收获,让你在数据的海洋里畅游无阻!
【8月更文挑战第17天】HBase是Apache顶级项目,作为Bigtable的开源版,它是一个非关系型、分布式数据库,具备高可扩展性和性能。结合HDFS存储和MapReduce计算框架,以及Zookeeper协同服务,HBase支持海量数据高效管理。MapReduce通过将任务拆解并在集群上并行执行,极大提升处理速度。学习HBase MapReduce涉及理解其数据模型、编程模型及应用实践,虽然充满挑战,但收获颇丰,对职业发展大有裨益。
223 0