word2vec 超easy解读保证你看了就会(4)!

简介: 这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation. 根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。 ##GloVe: Global Vectors for Word Representation 同之前介绍的一

这次开始介绍word2vec的第二种实现,GloVe: Global Vectors for Word Representation.
根据我目前的认知,从结果上来说(求解的模型),这个方法和goolge的word2vec其实几乎是一致。但是从过程上来说,看上去是有区别的。

GloVe: Global Vectors for Word Representation

同之前介绍的一样,作者同样认为,一个词的表示可以由这个词的上下文决定。两个词的上下文类似,那么这两个词也就类似或者相关。先上表。

1

表中\(P(i|j)\) 的含义是,在全文本中,词\(i\)的上下文中\(j\)的数量 /(除以) 词\(i\)上下文单词的总数. 记作\(frac{X_{ij}}{X_i} \)
例如,\(P(solid|ice)=1.9*10^{-4}\) 表示单词ice在单词solid附近出现的占比是0.019%.
由于ice是solid(固体)的,steam不是solid的,我们有理由相信,steam在solid周围(上下文,一个滑窗)出现的次数应该小于ice在solid周围出现的次数。
从表中第二行第一列可知,确实如此,steam在solid周围出现的比例大约为0.0022% .
同理由于steam是gas,而ice不是gas,因此\(P(gas|ice)

而water和ice,steam都有密切的关系,因此\(P(water|ice)≈P(water|steam)\).
而fashion则和两者关系都不大,因此\(P(fashion|ice)≈P(fashion|steam)\).

模型建立

有理由相信,对于三个词\(i,j,k\),他们\(P(k|i)/P(k|j)\)的值可以解释他们之间的关系。
因此,我们可以假设一个函数,自变量是三个词的vec表示,然后函数结果则是\(P(k|i)/P(k|j)\)。

$$ F(w_i,w_j,w_k)=P(i|k)/P(j|k) $$

其中每个\(w_i\)是一个H维词向量表示。

接下来的问题就是怎么决定这个F了。作者的眼光总是逃不开简单化,和向量相减的思路。于是他提出了把3个自变量三合一。

$$ F((w_i-w_j)^Tw_k)=P(i|k)/P(j|k) $$

也就是两个词向量的差点乘另一个词向量应该等于目标值。
然后,作者又认为,这个函数必须是群同构映射。我在这就不扯什么是群同构映射了,从结论上来说就是

$$ F((w_i-w_j)^Tw_k)=F(w_i^Tw_k)/F(w_j^Tw_k) $$

联立上面两个方程,可以得到

$$ F(w_i^Tw_k)=P(i|k) $$

而取\(F=e^x, w_i^Tw_k=log(P(i|k))=log(X_{ik})-log(X_i)\) 上述同态映射就可以满足了。

考虑到这个式子缺少对称性,我们最后改为

$$ w_i^Tw_k+b_i+b_k=log(X_{ik}) $$

以上的所有操作都是为了确定函数F是什么样的,每个步骤看上去有道理其实也是为了计算的简便。
再次明确下各个部分的含义
等式的右边是已知数,\(X_{ik}\) 表示单词k在单词i周围出现的概率。
等式的左边是变量,其中\(w_i\)是H维词向量,而\(b_i\)是常数值。

这看上去像是VV(V是词汇量)个方程求解问题,但这基本上无解的,原因是变量只有4V个,而方程有V*V个。所以我们只能再出搬出loss function了。

$$ LOSS=\sum^V_{i,j=1} f(*)(w_i^Tw_k+b_i+b_k-log(X_{ik}))^2 $$

其中f()是一个权重函数,我们的目的就是最小化LOSS。
至此,模型描述完毕,下一期开始代码解析,模型速度优化和与之前模型的对比。

相关文章
|
2月前
|
机器学习/深度学习 自然语言处理 Python
|
机器学习/深度学习 自然语言处理 运维
Word2Vec:一种基于预测的方法
Word2Vec:一种基于预测的方法
288 0
|
自然语言处理 数据可视化 数据处理
基于gensim实现word2vec模型(附案例实战)
基于gensim实现word2vec模型(附案例实战)
901 1
基于gensim实现word2vec模型(附案例实战)
|
机器学习/深度学习 自然语言处理 算法
Word2Vec原理以及实战详解
Word2Vec原理以及实战详解
|
Python
[Leetcode][Python]Word Break/Word Break II/单词拆分/单词拆分 II
Word Break 题目大意 给定一个目标字符串和一组字符串,判断目标字符串能否拆分成数个字符串,这些字符串都在给定的那组字符串中。 解题思路 动态规划
127 0
|
机器学习/深度学习 自然语言处理 数据建模
一文详解 Word2vec 之 Skip-Gram 模型(结构篇)
这可能是关于 Skip-Gram 模型最详细的讲解。
497 0
|
算法
word2vec深入浅出,保证你一看就会(1)
下一篇地址 http://www.atatech.org/articles/55128word2vec 是现在在自然语言处理中非常非常实用的技术,word2vec一般的用途通常有两种,第一种是其他复杂的神经网络模型的初始化,还有一种是把词与词之间的相似度来作为某个模型的特征。word2vec的最大优
7636 0
|
机器学习/深度学习 算法
|
自然语言处理 TensorFlow 算法框架/工具
Word2Vec之Skip-Gram与CBOW模型原理
word2vec是一个开源的nlp工具,它可以将所有的词向量化。至于什么是词向量,最开始是我们熟悉的one-hot编码,但是这种表示方法孤立了每个词,不能表示词之间的关系,当然也有维度过大的原因。
1726 0