pLSA 原理中｜学习笔记-阿里云开发者社区

pLSA 原理中｜学习笔记

2022-11-23 149

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 pLSA 原理中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践：pLSA 原理中】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/1067/detail/15530

pLSA 原理中

提问：单个文档概率，假设隐变量Z未知，单个文档概率隐变量z未知 p（d|θd，T）是怎么回事？

就是如果p（d，Z|θd，T）已知的话我们要把这个Z从表达式2里消掉，一个办法就是我们把所有可能的Z穷举变，加起来。比如Z是每个词的topic θd属于哪个topic。它可以属于top 1，也可以属于topic K，有很多种可能性，尤其是考虑的所有词之后，这个可能性非常多，所以说Z它有很多种选择。

理论上我们可以把所有的可能穷举一遍，然后把文档概率Z已知的这个概率加起来。打个比方：就好像要算明天下雨，明天下雨并且打雷的概率。这里有两种概率：明天下雨，并且打雷的概率以及明天明天下雨但是不打雷的概率。明天下雨的概率等于p（d，Z|θd，T）和（d|θd，T）的和值，咱们把所有可能的Z都加起来之后这个Z就消失了，就代表我们已经把所有情况都考虑到了。它是一个主题，然后这个主题里Wi的概率是

如图1所示，我把这个联乘里头的这些东西我用，然后再取个对数f（θ，Z）表示，f（θ，Z）可以分解成。按Z1加上一直加到Zs，长度用S表示。表达式（1）它并不是一个恒总成立的一个式子，它只是一个前提。即假设这个Z的分布可以分解，f（θ，Z）的分布可以按表达式（2）来分解，p（Z）f（Z）的求和对所有的Z求都可以按照表达式（3）的式子来求。

乘积变成求和就要取个log,。可以使用log+jensen不等式公式。这这个式子比较复杂，就是咱们。把它分成左右两块，分别来看，如图二所示：

图2

公式解读：

左边这个绿框这一块是算文档的概率（d|θd，T）。（d|θd，T）等式的右边，Q（Z）和分母的Q（Z）相互抵消，就相当于p（d，Z|θ）对对所有的Z求和。

为什么左边大于等于右边呢？因为先求和再去log大于等于先去log再求和。

总结：jensen不等式先求和再去log大于等于先去log再求和，

不等式成立成立的条件是利用凸函数的特性，表达式如图3所示，

对数函数是个凹函数，对数函数的曲线如图3所示，凹函数取个符号就变成图函数了。

所以说是log先去求和再log大于等于先logo再求和。ai是我们指定的一个分布，他是可恢复的。

pLSA 原理中｜学习笔记

pLSA 原理中

阿里云开发者学堂

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

pLSA 原理中｜学习笔记

pLSA 原理中

阿里云开发者学堂

热门文章

最新文章

相关电子书