词向量的运用-用词向量理解词组的含义

简介: 之前花了5篇介绍了word2vec的方法。词向量最大的意义是把原来的字符串变成了一个数字形式的向量,也就是说现在词和图像变得非常相近,因为图像也就是例如255*255的像素点,而每个像素也是一个数字。因此,词向量被很多任务作为初始的输入,从这开始,我将以轻松的形式来介绍词向量的运用场景。 = 本着先进性的原则,我会介绍最新的16年的论文,以较轻松的形式。今天分析这篇: 用词向
  之前花了5篇介绍了word2vec的方法。词向量最大的意义是把原来的字符串变成了一个数字形式的向量,也就是说现在词和图像变得非常相近,因为图像也就是例如255*255的像素点,而每个像素也是一个数字。因此,词向量被很多任务作为初始的输入,从这开始,我将以轻松的形式来介绍词向量的运用场景。

=

本着先进性的原则,我会介绍最新的16年的论文,以较轻松的形式。今天分析这篇:
用词向量理解词组的含义http://aclweb.org/anthology/Q/Q16/Q16-1002.pdf

Key Idea

作者的核心思想:用词典的定义来训练词组,
如 Piano:
A large keyboard musical instrument with a wooden case enclosing a soundboard and metal strings
那么代表下面一串的词组的向量就应该是piano向量.

训练的话,使用RNN或者一般的Bag of Word 神经网络。
简单来说,RNN训练的目标是
A,large,keyboard,musical,....strings -> Piano
这样一个序列能够得到Piano。
而Bag of Word则是
A->Piano, large->Piano, keyboard ->Piano,...strings ->Pinao这样每个单词可以得到答案Piano.
乍看之下RNN显得要比Bag of Word更合理,但是RNN存在vanishing gradient和迭代更新慢的特点,目前还没有在实用性上得到普及。

效果展示

作者提供了网址来测试他的研究。
我从几个维度来测试了效果,我先试了
A big company in China

1
可以看到训练数据应该不包含公司的信息,RNN输出的结果基本是乱码,而BOW输出的基本为地名,应该是匹配上了Place in China。

我再试了非常正规的词,路由器。以下定义都是我自己写的,和词典的无关。
A device that can access the Internet
2
可以看到这次RNN和BOW都得到了精准的答案,modern,在之前的几个结果和符合逻辑,什么server,browser.

最后我试了一个连我都不知道答案的介绍,想看看表现如何。
A book that can kill people。 一本杀人书!
3png

RNN给出了死灵书这样的答案,非常给力啊。而BOW则非常中规中矩,给出了一些书的别称。

自然语言处理尚在发展时期,而不久的将来语义的理解可能不是梦o(∩_∩)o 哈哈。

=

相关文章
|
6月前
|
自然语言处理 Python
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
【Python自然语言处理】文本向量化的六种常见模型讲解(独热编码、词袋模型、词频-逆文档频率模型、N元模型、单词-向量模型、文档-向量模型)
961 0
|
6月前
TF-IDF 怎样将用单词权重的向量表示一个文档
TF-IDF 怎样将用单词权重的向量表示一个文档
68 1
2114. 句子中的最多单词数
一个 句子 由一些 单词 以及它们之间的单个空格组成,句子的开头和结尾不会有多余空格。 给你一个字符串数组 sentences ,其中 sentences[i] 表示单个 句子 。 请你返回单个句子里 单词的最多数目 。
104 0
|
机器学习/深度学习 数据采集 存储
【英文文本分类实战】之四——词典提取与词向量提取
【英文文本分类实战】之四——词典提取与词向量提取
244 0
【英文文本分类实战】之四——词典提取与词向量提取
|
算法 数据挖掘 Linux
【文本分类】采用同义词的改进TF-IDF权重的文本分类
【文本分类】采用同义词的改进TF-IDF权重的文本分类
123 0
【文本分类】采用同义词的改进TF-IDF权重的文本分类
|
存储 BI C#
一个词语总结2022,你的是什么? | 2022 年度总结
2022马上即将过去。近期各种软件,各大平台也都发布自己专属的年度回忆录,我也抓住22年的最后一天的小尾巴,写一篇年终总结,向2022说再见吧~
187 0
一个词语总结2022,你的是什么? | 2022 年度总结
|
自然语言处理
S-SimCSE:基于抽样子网络的句子嵌入对比学习
S-SimCSE:基于抽样子网络的句子嵌入对比学习
165 0
S-SimCSE:基于抽样子网络的句子嵌入对比学习
|
算法 前端开发
句子中的最多单词数
🎈每天进行一道算法题目练习,今天的题目是“句子中的最多单词数”,一道简单题。
231 0
关于标点符号的分类
关于标点符号的分类
139 0