基本文本处理 2|学习笔记

简介: 快速学习基本文本处理 2

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践基本文本处理 2 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15499


基本文本处理 2

 

内容介绍:

一、 jieba 具体使用方法

二、 exam 2 Stanford CoreNLP 分词与词性标注。

三、命名文本的识别

四、exem 3 stanfordcorenlp 命名实体识别

 

一、 jieba 具体使用方法

Jieba 支持自定义词典词典格式是一个文本文件,一个词占一行,每一行可以分为三个部分:词语、词频(可省略),词性(可省略),用空格隔开,顺序不可颠倒。

image.png具体的使用方法:形容  jieba 里面的一个函数  load_userdict,再看文件名,就可以下载用户自定义词典。也可以动态地去修改词典,用 add_word 也可以删除 word。 另外还可以调节词语的词频,然后使其能/不能被分词。满足一定的词频就能分出来,然后使用suggest_freq 加词频的一个函数来处理。

 

二、 exam 2 Stanford CoreNLP 分词与词性标注

pop install stanfordcorenl需要安装,装好之后还需要从 github官网上面下载中文的支持文件,放到一个 NLP 目录当中。

网址:https://stanfordnlp.github.io/CoreNLP/download.html

下载coreNLP3.9.x与Chinese xxx-models.jar文件将其存放在统一文件目录下,例如 f:\phython\coreNLP目录下。

image.png在下载安装包时需要指定这个文件。然后看代码,从斯坦福的 stanfordcorenlp 里面导入一个模快 StanfordCoreNLP ,前面nlp为小写字母,后面的模块里面为首字母大写。作为对象引用 Stanford CoreNLP, 在模块儿参数里面要指明中文资源在哪一块目录。

image.png同样使用文本句“大学生活像白纸”,然后进行分词,使用 stanfordcorenlp 里面的 word_tokenize 把文本句传给它,即可进行分词。

image.png做词性标注,使用 pos_tag 来做词性标注,然后运行,因为需要调用中文数据来做分词和词性标注,分词也是一个精确方法,然后其词性标注是一个词性,其词性代码和 jieba 不一样。比如名词它是两个大写 N, 而动词是两个大写 V 表示

 

三、命名文本的识别

命名文本识别就是在文本当中找出一些实体,这些实体大多数是人名、地名、机构名等等。还可以扩展到其他领域中,比如说生活医学中的疾病、药品、治疗方法等等。命名实体识别更多提到的是组织、地理位置、人等等。如果是不同的领域需要有专门的 命名识别工具工具。命名实体识别的英文缩写是 NER, 全称是 Named Entity recognition。 也可以用 StanfordCoreNLP  做命名实体识别。

 

四、exem 3 stanfordcorenlp 命名实体识别

文本句:“华东师范大学位于中国上海”

用包里面的 ner 来做命名实体识别,然后进行识别得出的结果是命名实体:(“华东”,“ORGANIZATION”),(“师范”,“ORGANIZATION”),(“大学”,“ORGANIZATION”),把这三个词拼接在一起是一个组织;(“位于”,“0”),(“的”,“0”),0表示其他;(“中国”,“COUNTRY”)指一个地理位置的国家;(“上海”,“STATE OR PROVINCE”),指一个省市,首都、省府等等。

image.png

相关文章
第9章 数学建模函数——9.3 参数传递
第9章 数学建模函数——9.3 参数传递
|
3月前
|
存储 算法 前端开发
如何使用 Vuex 插件来实现状态的加密存储?
如何使用 Vuex 插件来实现状态的加密存储?
313 124
|
Linux Docker 容器
problem with installed package podman-1.4.2-5.module_el8.1.0
problem with installed package podman-1.4.2-5.module_el8.1.0
200 0
|
数据采集 人工智能 自然语言处理
AI战略丨赋能更好的教育,大模型应用再提效
采用成熟厂商的解决方案,不仅仅是因为过硬的技术,还有对客户业务的理解,以及顺畅的沟通和服务能力。
|
存储 运维 Java
SpringBoot使用log4j2将日志记录到文件及自定义数据库
通过上述步骤,你可以在Spring Boot应用中利用Log4j2将日志输出到文件和数据库中。这不仅促进了良好的日志管理实践,也为应用的监控和故障排查提供了强大的工具。强调一点,配置文件和代码的具体实现可能需要根据应用的实际需求和运行环境进行调优和修改,始终记住测试配置以确保一切运行正常。
1777 0
|
机器学习/深度学习 数据采集 算法
|
存储 安全 搜索推荐
Cookie和Session的区别,99%的程序员都不知道的细节!
大家好,我是小米,在Web开发中,Cookie和Session是两种重要的状态管理工具。它们有着不同的存储位置、安全性和应用场景。本篇文章将详细解析它们的区别和应用,让你在开发过程中能够更加游刃有余。让我们一起深入了解吧!
398 1
|
JavaScript 前端开发
nodejs配置express服务器,运行后自动打开浏览器
作为前端开发的项目,有的时候打包完后就想在本地测试是什么样子的,另外一些如cesium等程序,需要在服务的环境下才能启动三维球等。 这里使用nodejs+express搭建一个普通的服务器。
nodejs配置express服务器,运行后自动打开浏览器
|
机器学习/深度学习 人工智能 自然语言处理
AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势
AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势
AI:大力出奇迹?Bigger is better?AI下一代浪潮?—人工智能的大语言模型(LLMs)的简介、发展以及未来趋势
|
存储 弹性计算 资源调度
生命科学行业解决方案
本文整理自阿里云弹性计算产品解决方案架构马继雨(芦笋),在阿里云 云计算情报局的分享。本篇内容主要分为四个部分: 1. 行业综述 2. 行业分析 3. 云超算解决方案 4. 关键特性及方案优势
1744 0
生命科学行业解决方案