基本文本处理 3|学习笔记

简介: 快速学习基本文本处理 3

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践基本文本处理 3】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15500


基本文本处理 3

 

内容介绍:

一、句法分析

二、 exame 4 stanfordcorenlp 句法成分分析

三、exame 5 stanfordcorenlp 依存句法分析

四、小结:句法分析思维导图

五、文本处理工具如何构建?

 

一、句法分析*(Syntactic parsing)

许多语言的词序相对自由,将文本视为单词的线性序列会导致性问题,单词排序的情形很多,相关词在句子中可能相距甚远。比如  “Ford, as you may well kown, is a car maker”,  在 “Ford” 和  “car maker” 之间相隔很远,如果是一个线性序列就很难理解。

了解句子中的单词如何相互关联,如果明白此关系就会非常有用,这就需要通过文本中的上下文关系来来进行挖掘,如“马云是阿里巴巴的总裁”,就是马云和阿里巴巴之间的关系,这就需要一个句法分析。如果每一个句子都可以给一个句法树 syntactic tree, 理解句子之间词和词之间的关系是非常有帮助的。

句法树如下图示例:

image.png

image.png从图中的英文句子可知,词与词之间标明了它们的组合关系,比如名词短语、动词短语、主谓宾、主体、课体等等。中文 a、b、c 三个例子同样都是树与树的关系,且每个单词都依赖于另一个单词(*head*),句子中只有一个单词是树根。 在 b 例子当中动词“是”非常重要,且 b 例子词语词之间互相依制。边(称为依存 *dependencies)具有标签(称为 dependency types*),关于边的理解,以下是参考资料的网址,包括中文节点和英文节点,自行查看了解。

句法分析有关网址:

https://www.jianshu.com/p/24e0d53b1ee2/ 或者https://www.jianshu.com/p/6d03b991b6af 

Chinese types: https://universldependencies.org/zh/dep/ 

English types: https://universldependencies.org/en/dep/

打开之后,就会看到核心的与非核心的一些元素如 nsubj,obj 等等,可自行点击查看进一步了解。

image.png句法树有很多有关结构的知识,还有句子的含义。通常,同一句子可能具有多种不同的含义,有关的结构知识和句子的含义对应不同的句法树。如果想方便学习可在 B 站中学习。

学习视频网址链接:https://www.bilibili.com/video/av41393758/?p=6  

学习视频是关于斯坦福大学深度自然语言处理的一套课程,有需求可自行学习。

 

二、 exame 4 stanfordcorenlp 句法成分分析

该句法分析,如下图。前面两行是规定的动作。通过 parse 句法树的分析然后进行运行得出相应的结果。句法结构是关系到整个句子,而句法依存是局部的词和词的关系。像整个句子“大学生活像白纸”就可以看出在整个句子里面其结构和根是什么。

image.png


三、exame 5 stanfordcorenlp 依存句法分析

以下为局部的依存句法分析,前面规定的动作部分和下面部分相同因此省略掉了。句子同样是“大学生活像白纸”,然后进行运行就会知道依存的标签是什么,标签也可以到相关网站去查看。

image.png


四、小结:句法分析思维导图

image.png

image.png如果想要进一步更深的文本挖掘,不光要了解特征词,而且要了解每个句子里词的相互关系。

 

五、文本处理工具如何构建?

如下图中, Short answer 就是通过机械学习,从人工里面准备的语调去训练结构句,比如分词、词性标注、句法分析等等。要做命名实体识别需用到上下文中的数千个实体示例。准备实体数据训练的网站:http://www.universaldependencies.org 

 

image.png1. CoNLL format 格式的使用

依存句法分析需要一些特殊的数据格式,比如 CoNLL format 格式

以下是格式的一些示例

image.png

2. CoNLL_U format columns 格式的使用

参考文档资料网址:

Copied from http://universaldependencies.org/format.html 

image.png

相关文章
|
Java Spring
idea @Autowired 注入爆红(无法注入)
idea @Autowired 注入爆红(无法注入)
327 0
|
存储 SQL XML
【MySQL】面试官:crud都不会,回去等通知吧
数据库可以持久化操作,我们都知道内存中的数据是以高电压低电压产生0和1进行数据存储的一旦断电内存中的数据就会消失。 持久化的主要作用是将内存中的数据存储在关系型数据库中,也可以存储在磁盘文件XML数据文件中。
233 0
【MySQL】面试官:crud都不会,回去等通知吧
|
JavaScript API
vue中使用refs定位dom的坑
使用element-ui的表单验证,出现"this.$refs.ruleForm.validate is not a function"使用mint-ui的popup,在mounted(){}钩子里面使用this.
2329 0
|
4天前
|
数据采集 人工智能 安全
|
13天前
|
云安全 监控 安全
|
5天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1102 152
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1778 9
|
10天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
708 152