开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践:pLSA 原理中】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/1067/detail/15530
pLSA 原理中
提问:单个文档概率,假设隐变量Z未知,单个文档概率隐变量z未知 p(d|θd,T)是怎么回事?
就是如果p(d,Z|θd,T)已知的话我们要把这个Z从表达式2里消掉,一个办法就是我们把所有可能的Z穷举变, 加起来。比如Z是每个词的topic θd属于哪个topic。它可以属于top 1,也可以属于topic K,有很多种可能性,尤其是考虑的所有词之后,这个可能性非常多,所以说Z它有很多种选择。
理论上我们可以把所有的可能穷举一遍,然后把文档概率Z已知的这个概率加起来。打个比方:就好像要算明天下雨,明天下雨并且打雷的概率。这里有两种概率:明天下雨,并且打雷的概率以及明天明天下雨但是不打雷的概率。明天下雨的概率等于p(d,Z|θd,T)和(d|θd,T)的和值,咱们把所有可能的Z都加起来之后这个Z就消失了,就代表我们已经把所有情况都考虑到了。它是一个主题,然后这个主题里Wi的概率是
如图1所示,我把这个联乘里头的这些东西我用,然后再取个对数f(θ,Z)表示,f(θ,Z)可以分解成。按Z1加上一直加到Zs,长度用S表示。表达式(1)它并不是一个恒总成立的一个式子,它只是一个前提。即假设这个Z的分布可以分解,f(θ,Z)的分布可以按表达式(2)来分解,p(Z)f(Z)的求和对所有的Z求都可以按照表达式(3)的式子来求。
乘积变成求和就要取个log,。可以使用log+jensen不等式公式。这这个式子比较复杂,就是咱们。把它分成左右两块,分别来看,如图二所示:
图2
公式解读:
左边这个绿框这一块是算文档的概率(d|θd,T)。(d|θd,T)等式的右边,Q(Z)和分母的Q(Z)相互抵消,就相当于p(d,Z|θ)对对所有的Z求和。
为什么左边大于等于右边呢?因为先求和再去log大于等于先去log再求和。
总结:jensen不等式先求和再去log大于等于先去log再求和,
不等式成立成立的条件是利用凸函数的特性,表达式如图3所示,
对数函数是个凹函数,对数函数的曲线如图3所示,凹函数取个符号就变成图函数了。
所以说是log先去求和再log大于等于先logo再求和。ai是我们指定的一个分布,他是可恢复的。




