为什么能学出有效的主题 中|学习笔记

简介: 快速学习为什么能学出有效的主题 中

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践为什么能学出有效的主题 中】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15534


为什么能学出有效的主题 中

 

image.png

上节课我们看到的LDA是非对称的Dirichlet ,现在这个是对称,但是后验概率已经不对称了。LDA里的先验都是对称的,那对称的Dirichlet是什么意思?

image.png就是所有的α1。αk都是相等的,就可以讨论α>1或者α<1。所有的αK>1的时候,这个分布的形状图1-1所示,这个三角形是所有合法的x值,实际上是一个三维空间的,这里画了两维,因为另外一维必须满足规划的约束,很容易从这两维里算出来,所以就只需要画两个就够了。这个Z轴代表它的概率概率密组,准确的说这个点它对应的概率率最高,z轴接近0的这点概率几乎为零了。

α>1的时候,它是这样一个肩顶帽子的形状,也就说在中间这个位置它的概率最大,旁边就衰减得很快。

α=1是上节课看我那个色子的例子,它是个平均的,每个参数它都是它的可能性都是相等的。

α<1时候图像如图1-2所示,三个角概率很大即边的概率比较大,中间概率几乎几乎为零。这个可以根据概念公式推算。

以图1-2周边尖角为例,这个尖角呢X2几乎等于1/2。X1和X3接近0,因为它三个相加必须等于一,这就是我们想要的稀疏的效果,即它会给一些稀疏的向量比如0.9。

进行稀疏的Dirichlet先验的采样,结果如图二所示,看到0.9剩下几乎为零。这样一个系数抽象出来的基本是这种很离散的向量。因为抽样实际上相当于在这个函数里随机找一点,他越高找这一点拿到这一点的概率越大。意思是有很大的概率是找到这个角上,找中间的概率就很小。拿到这个角那它就是一个稀疏向量对应了一个稀疏的离散分布。这个是他作为先验的会给那些系数的的离散分布比较大的概率,如果离散分布不太稀疏,那它的先验概率会比较小。

上节课得知参数后验概率和先验概率与似然函数成正比,但后验概率也可能会比较小。注意:这里考虑的是对称,定义是所有的α都是相等的,我们才可以考虑说α取值情况。

image.gif

如图3所示,α都是0.2,所以它是个鼓励稀疏分布的Dirichlet先验,即LDA等于pLSA+Dirichlet先验。

image.gif

它在{θd}和T上分别加了不同的Dirichlet先验,参数我们用α表示。为了鼓励稀疏分布,α一般取值比较小,比如0.1或者接近0.01都是可以的,一个选择的基本原则是topic的数目如果增多,主题数目增多α就选小一些。如果词多的话α就选小一些。

因为可以近似认为topic数目K乘以一个α。但实际上可能不是这样的,只是近似有这样一种关系。topic数目K乘一个α,表示这个文档里每个文档里头比较显著的topic的数目比如我希望这个我一个文档里头大概有七八个topic,剩下的topoc基本上都是概率接近0。那我就选k乘α约等于十,抽出来的topic的分布比较大。词的道理是一样的。

我们可以把文档和参数的联合概率写出来,看着稍微复杂了一些,因为pLSA和Dirichlet先验不一样,我们需要用不同的参数表示,α和β。文档和参数的联合概率公式如下:

image.gif使用Jensen不等式计算我们也需要θ,算它的后验分布。q(Z,θ)联合的后验概率我后面分布用q(Z,θ)来逼近。image.png

相关文章
|
JavaScript
新年倒计时动画网页特效源码
新年倒计时动画网页特效源码是一段基于JS实现的中国节日元旦2025年倒计时动画效果代码,利用此代码,可以实现任意节日的倒计时效果,欢迎对此代码感兴趣的朋友前来下载参考。
247 6
|
项目管理
「软件项目管理」一文详解软件项目管理概述
该文章详细介绍了软件项目管理的关键概念、知识体系以及实施过程,涵盖了项目初始化、计划制定、执行控制到项目结束的全流程管理,并探讨了项目管理与过程管理在软件开发中的相互作用和应用。
「软件项目管理」一文详解软件项目管理概述
|
敏捷开发 测试技术 持续交付
极限编程(XP)原理与技巧:深入解析与实践
【5月更文挑战第8天】极限编程(XP)是一种敏捷开发方法,注重快速反馈、迭代开发和简单设计,以提高软件质量和项目灵活性。关键原则包括客户合作、集体代码所有权、持续集成等。实践中,使用故事卡片描述需求,遵循编程约定,实行TDD,持续重构,结对编程,并定期举行迭代会议。通过理解和应用XP,团队能提升效率,应对变化。
|
安全 JavaScript Java
智慧校园|基于Springboot+vue的智慧校园管理系统(源码+数据库+文档)
智慧校园|基于Springboot+vue的智慧校园管理系统(源码+数据库+文档)
597 0
|
Linux 数据安全/隐私保护
劲爆!超全的常用 Linux 指令大全!
这篇博文详细介绍了常用的 Linux 指令,涵盖了文件和目录操作、文本处理、系统信息和进程管理、网络操作、权限管理、以及压缩和解压等方面。文章列举了各个指令的具体用法,包括创建和删除文件/目录、复制、移动和重命名、查看和编辑文本文件、文本搜索和替换、查看系统信息、查看和管理进程、网络信息查看、文件下载、更改文件权限、压缩和解压等内容。这份指南为 Linux 用户提供了实用而全面的工具,有助于在日常管理和开发工作中更高效地操作系统。无论是初学者还是有经验的用户,阅读本文都能获得有关 Linux 操作的重要知识。
331 1
|
安全 区块链
defi丨dapp智能合约代币系统开发(开发案例)/需求详细/逻辑方案/项目源码
The development of the Defi single and dual currency pledge liquidity mining system requires the following steps: requirement analysis, system design, contract writing, front-end and back-end development, testing and deployment. Firstly, conduct a comprehensive requirement analysis of the system&#39;s f
|
存储 Ubuntu Java
Ubuntu安装JDK与IntelliJ IDEA
APT(Advanced Package Tool)是Linux系统上的包管理工具,能自动解决软件包依赖关系并从远程存储库中获取安装软件包。推荐使用APT管理软件包,因为它简便易用且有效地处理依赖关系,无需手动配置环境变量。这样,您可以轻松地安装和更新软件包,而APT会自动处理所有必需的依赖项,确保系统的稳定性和功能正常运行。
460 1
|
Scala
scala-模式匹配(字符串、数组、元组、集合、类、偏函数)
scala-模式匹配(字符串、数组、元组、集合、类、偏函数)
120 0
|
设计模式 安全 Java
[设计模式Java实现附plantuml源码~创建型] 确保对象的唯一性~单例模式
[设计模式Java实现附plantuml源码~创建型] 确保对象的唯一性~单例模式
226 0
|
前端开发
简单易用的React组件库——Concis
简单易用的React组件库——Concis介绍
269 1
简单易用的React组件库——Concis