LDA 原理 中|学习笔记

简介: 快速学习 LDA 原理 中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践LDA 原理 中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15527


LDA 原理 中

 

内容介绍

一、对称 Dirichlet 分布的概率密度函数

二、稀疏 Dirichlet 先验的采样

三、LDA=pLSA + Dirichlet 先验

 

一、对称 Dirichlet 分布的概率密度函数

image.gif然后因为LD里用到刚才看到的是非对称的对视,这个是对称,但是后验概率已经不对称。LD里头现在都是对称的对视分布。对称的对视是什么意思?就是所有的α1,α2,αk都是相等的结果,就可以讨论是是否大于1或者小于1。

1,α>1

所有的α都大于一时,分布的情况是三角形是所有合法的Xi。实际上是一个三维空间的。这里画了两枚,因为另外一枚必须满足规划的约束。可以很容易从这两个里算出来。

Z轴代表概率密度,对应的概率最高,然后接近X2的概率几乎为零。α>1时,是这样一个尖顶帽子的形状,也就是说在中间位置的概率最大,然后旁边儿就衰减的很快。和高斯分布有点儿像。

2,α=1

跟刚才看过骰子的例子,是平均分布的。每个参数的可能性都是相等的。

3,α<1

三个角概率很大,然后b两边的概率也比较大一些,然后中间的概率几乎为零。然后以靠近X2的尖角为例,X2的尖角几乎等于一。X1和X3基本上等于零了。很接近零,因为三个相加必须等于一。所以这就是想要的稀疏的效果就是。会给一些稀疏的向量比如0.9

 

二、稀疏 Dirichlet 先验的采样

image.gif将0.9剩下几乎为零。然后这个0.6,还有一个0.17,这个几个比较大,剩下大部分都为零。从系数的定义域抽样出来基本上都是很离散的参数向量。

抽样实际上相当于在函数里头随机找一点,越高拿到这一点的概率越大,意思就是有很大的概率是找到这个角上。中间找中间的概率就很小。然后拿到这个角就是一个系数向量,相对应的一个系数的离散分布

作为先验比较鼓励,会给那个系数的离散分布一个比较大的概率。如果这个离散丰富不太清楚,先验概率会比较小,知道了后验概率∝先验概率*似然函数,后验概率可能会比较小

阿尔法是向量,因为考虑的是对称对视,是所有的α=1,, α1,α2,αk都是相等的k都是相等的,都等于α,所以可以考虑是否大于一或者小于一,所有维的抄参的α都是0.2。是个鼓励系数分布的一个对视先验。

 

三、LDA=pLSA + Dirichlet 先验

LDA在{θd},T上加了不同的Dirichlet先验,为了鼓励系数,αβ应该选择比较小。

image.gif比如0.1或者0.01,一个选择的基本原则就是topic的主题数目增多,α就选小一些。如果词多的话,β就选小一些,。近似认为topic数目K乘以α。但实际上可能不是这样的。等近似有这样一种关系,可以乘α,是每个文档里头比较显著的topic数目。比如直觉上觉得一个文档里头大概有七八个topic已经够多了。那剩下topic的基本上都是接近零,那就选k*α约小于10,K抽出的大,α就小,不然抽取的topic都比较大,不太合理。词的道理是一样的,和pLSA类似可以把文档及其参数的联合概率写出来

image.gif首先给参数的先验概率,p(θd|α)是{θd}的先验概率,在参数是α的对视里抽出来的。然后每个{tk}都是从参数是β的对视里抽出来的,然后要把K个连乘,p(wi,zi|θd,T)和PRC是一样的。就是每个词的概率。然后做推导的时候一样的要用Jensen不等式,因为这个更复杂。刚才的差别在于说,刚才是QZ。分布是关于z的,现在是q(z,θ),因为θ也需要后验分布。所以说q(z,θ)联合的后验分布用q(z,θ)逼近先求log再求和,因为θ是连续的参数,这实际上应该是个积分,为了简化这个符号也写成这个这个求和的形式。

相关文章
RGB颜色模型和HSV颜色模型
RGB颜色模型和HSV颜色模型“【5月更文挑战第22天】”
1017 2
|
存储
大数据分析基础——维度模型
image.png 1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。
2882 0
|
存储 数据采集 分布式计算
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
一篇文章搞懂数据仓库:四种常见数据模型(维度模型、范式模型等)
|
存储 运维 安全
阿里云发布SaaS数据本地化服务,助力企业跨国扩展与合规
阿里云SaaS数据本地化服务(Alibaba Cloud InCountry Service,简称ACIS) 由阿里云和 InCountry合作推出,为使用海外SaaS或者应用的企业客户提供了一种将受管制数据在境内存储和处理,以实现合规的SaaS服务。
1740 0
阿里云发布SaaS数据本地化服务,助力企业跨国扩展与合规
|
3月前
|
域名解析 网络协议 CDN
怎么使用CDN给你的网站加速?
本文介绍阿里云CDN开通与配置全流程:先开通服务,添加加速域名并设置源站信息,再通过CNAME解析绑定域名。完成配置后,通过ping命令验证CNAME生效情况,实现网站加速。
|
前端开发 JavaScript
打造现代感十足的卡片式企业官网:HTML+CSS全攻略!
打造现代感十足的卡片式企业官网:HTML+CSS全攻略!
|
人工智能 大数据 云计算
【AI系统】AI 发展驱动力
本文介绍了阿里云在2023年云栖大会上发布的多项新技术和产品,涵盖云计算、大数据、人工智能等领域,展示了阿里云最新的技术成果和行业解决方案,助力企业数字化转型。
|
编译器 C语言 计算机视觉
【ARM汇编速成】零基础入门汇编语言之指令集(二)
【ARM汇编速成】零基础入门汇编语言之指令集(二)
1216 0
|
存储 传感器 算法
基于ACO蚁群优化算法的WSN网络路由优化matlab仿真
摘要(Markdown格式): - 📈 ACO算法应用于WSN路由优化,MATLAB2022a中实现,动态显示迭代过程,输出最短路径。 - 🐜 算法模拟蚂蚁寻找食物,信息素更新与蚂蚁选择策略确定路径。信息素增量Δτ += α*τ*η,节点吸引力P ∝ τ / d^α。 - 🔁 算法流程:初始化→蚂蚁路径选择→信息素更新→判断结束条件→输出最优路由。优化WSN能量消耗,降低传输成本。
|
存储 Prometheus 监控
基于Elasticsearch的指标可观测实践
主要介绍Elasticsearch为什么做时序引擎、Elasticsearch做时序引擎的挑战、Elasticsearch 时序引擎特性介绍、阿里云基于Elasticsearch TimeStream介绍。文章结尾更有关于《阿里云Elasticsearch在时序场景下的深入探索》的demo演示视频。
1768 145
基于Elasticsearch的指标可观测实践