文本分类 中|学习笔记

简介: 快速学习文本分类 中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践文本分类 中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15522


文本分类 中

 

主要内容

一、文本分类的一些应用场景

二、文本分类简史

 

一、文本分类的一些应用场景

1、新闻分类、邮件过滤

各类分类、垃圾邮件,垃圾邮件分成两类:第一类为Spam ,第二类为Not Spam,此为一个文本分类的应用。

2、舆情监控

如果发生任何紧急情况,当局可以对紧急情况进行监视和分类,以做出快速响应。此为政府部门最为关注的事情。

3、感情分类&观点挖掘

之前讲解了情感分析,具体为正面的/负面的,积极的/消极的,感兴趣的/不感兴趣的,主要取决于不同的应用需求,主要应用在一些产品的评论里面,此企业单位很重视的,包括事业单位同样重视,若有负面消息方面的报道需要第一时间进行解决。

之前有一则新闻:有一研究生在地铁上有不文明行为,将垃圾随处仍在地铁上,甚至与别人发生冲突,团委第一时间辟谣,声明不是本校研究生所为,接着学院也同时进行辟谣。

4、使用类别标记产品或内容

对产品和内容使用标签对网站上的内容进行文本分类可帮助搜索引擎收录网站;研究和分析竞争对手使用的标签和关键字,竞争情报分析。例如微博里面每个人都有自己的标签,标签也是一种分类,文章分类的标签,关于财经、经济、会计、市场营销等。

5、CRM 系统中自动客户服务

CRM任务可以根据重要性和相关性直接分配和分析。它减少了人工工作,因此具有很高的时间效率。

(1)营销人员可以根据用户在线谈论产品或品牌的方式来对其进行监视和分类

(2)学术文献分类,专利文献分类,法律文献分类,专利有新的专利分类法,故对此分类就需要使用文本分类进行解决。

(3)对大型文本数据进行分类有助于使搜索更容易且更相关,简化导航来改善用户体验。

 

三、文本分类简史

image.png1998年之前,许多文本分类需要依赖专家人工处理,耗时费力,有许多分类法对文本进行分类,早期还是十分麻烦的。大约1998-2013年,发展到机器学习,特征提取、文本表示,但特征工程质量不高,分类的准确率并不高。

2013-2016年之后开始发展为分布式表示,利用神经网络,这节课之前补了一些数字科学的部分内容,故之后就不进行深度学习,原来计划是接着学习,但是已经有了基础之后,同学们可以自行拓展。分布式表示、神经网络在2016-2018年发展的巨快,2013-2016年为TextCNN,2016-2018年为TextRNN,2018-2020年,有许多新的一些表示方法如ELMO,BERT,后面还会有许多变化,例如新出的GPT3,参数为3E,希望文本能够递减。对文本进行理解,若有一条路径是可行的就为量化表示,特别是一次向量的分布式表示,故此同济数学专业越来越强大。也就是说,找到一条路径,之前是用词表,同时也还有其他路径,为将概念性的内容整理出来,就为本体。

但是本体很难搞定一种通用场景,完成一个项目还是比较困难的,每一个领域需要一群专家进行构造本体,本体就是将概念全部建立起来。解决文本的语义全部途径,一种为将概念体系健全,就像一个专家把课程知识都学会,另一种途径为模式识别,向机器学习发展领域,事实证明在企业里面第二种途径更容易工程化,故此条路径发展十分快。

若同学们做出贡献,能够研究出向量的一种新的表示方法,让它的语义更强大,文本的各种歧义及不同场合,若能够解决以上问题,人工智能将会提升一个新的高度。感知人工智能为人类专家想到的借助计算机进行制造。

所谓的下一代人工智能为认知智能,需要解决的一个最大的问题为文本语言,认知可以进行推理,以上为文本分类简史的内容。希望同学们能够加强重视,将有关统计数学的知识使用到里面。

相关文章
|
4天前
|
数据采集 人工智能 安全
|
13天前
|
云安全 监控 安全
|
5天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1099 152
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1774 9
|
10天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
706 152
|
12天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
664 13
|
7天前
|
SQL 自然语言处理 调度
Agent Skills 的一次工程实践
**本文采用 Agent Skills 实现整体智能体**,开发框架采用 AgentScope,模型使用 **qwen3-max**。Agent Skills 是 Anthropic 新推出的一种有别于mcp server的一种开发方式,用于为 AI **引入可共享的专业技能**。经验封装到**可发现、可复用的能力单元**中,每个技能以文件夹形式存在,包含特定任务的指导性说明(SKILL.md 文件)、脚本代码和资源等 。大模型可以根据需要动态加载这些技能,从而扩展自身的功能。目前不少国内外的一些框架也开始支持此种的开发方式,详细介绍如下。
464 5