为什么能学出有效的主题 下|学习笔记

简介: 快速学习为什么能学出有效的主题 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践为什么能学出有效的主题 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15535


为什么能学出有效的主题 下

 

Jensen不等式提供了p(d,θ|β),α和β是人为指定的超参,要算d和θ的联合概率,我们要考虑θ的先验概率。Jensen不等式提供一个容易计算的下界,θ是需要学出来的。

image.png但现在LDA里虽学的不是一个点,不是找一个最优的θ,而是它的分布。因为θ他服从一个Dirichlet的并且θ又涉及再变成这个参数,相当于算文档概率的时候它是一个参数,结合起来算它的后验概率。q(Z)越接近p(d,θ|β),下界Ḷ(q,θ)就越大,我们尽量让下界Ḷ(q,θ)尽可能大。

但q(Z)都是很复杂的,因为Z是一个很长的一个序列。q(Z)是一个这个定义在这个序列上的概率分布,q(Z)也是个连续的分布。如果要求Z和θ之间还有什么相关性的话那根本就没法算了,所以就只能假设q(Z,θ)分解成q (Z)乘以q(θ)。准确的说应该用q1和q2,因为参数都不一样,它肯定是不同的分布,相当于一个变分分布的不同的组块组合得到了完整的变分分布。

topic出现了几次,然后算这个topic的分布的后验概率的话仍然是Dirichlet的。所以不管是θ或者是T后验概率都是Dirichlet分布。所以就用两个Dirichlet来刻画这个θ的后验概率。

所以q(Z)就不一样了,q(Z)只是近似,因为不同的zi和ZJ之间是有相关性的,但是θ的后验概率是可以精确求解的。

我们就先固定q(θ),优化q(Z),让下界Ḷ(q,θ),然后固定q(Z)优化q(θ),让下界尽可能大。刚才是固定q(θ)优化q(Z)。然后固定q(Z)优化优化q(θ),优化的是q(θ),给不同的θ不同的概率。并不是说之前的是点,实际上可以认为是一种反哺,也就是θ为0的最优解的时候概率为1, 其他所有的地方概率都是零。

我们Dirichlet分布来刻画q(θ),就是相当于平滑一些,它不光是在这个最优的θ为0概率比较大而且再稍微偏一点也不要紧,如果偏得太多概率就会非常小。这个估计比较鲁棒一,就得到LDA的EM变算。

这个γd是后验概率的分布的参数,刚才的α是先验概率的参数,使用上节课的股子例子来说明。

如图2所示,相当于α是(1,1,1,1,1,1)。γ是(6,3,2,2,2,1).贝斯推理的方式都是先验概率,有数据,然后算后验概率,最后换算概率;如果后验概率不可算的话就用一些简单的分布来近似它。

相关文章
|
8月前
|
人工智能 运维 安全
热门 MCP Server一键部署
本文探讨了MCP(Model Context Protocol)的发展及其云上托管的趋势。尽管MCP协议在2024年发布时未引起广泛关注,但随着Cursor和Manus等平台的集成,以及OpenAI对其Agent SDK的支持,MCP逐渐成为行业标准。然而,本地部署的MCP Server存在效率低、扩展复杂等问题,难以满足企业级需求。函数计算(FC)作为Serverless算力的代表,提供一键托管开源MCP Server的能力,具备成本效益、弹性扩展、简化运维等优势,解决了传统托管的核心痛点。文章还提供了多个开源MCP Server的一键部署链接,助力开发者快速上手。
热门 MCP Server一键部署
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
12月前
|
人工智能 安全 数据安全/隐私保护
HarmonyOS应用开发实战:基于ArkTS的开箱即用登录页面实现【样式方式实现①】【HarmonyOS 5.0(Next)】
本文介绍了基于HarmonyOS 5.0(Next)和ArkTS实现的开箱即用登录页面。HarmonyOS 5.0是华为于2024年10月22日发布的第三代移动操作系统,具备原生智能、互联、安全及流畅特性。文章详细解析了使用ArkTS开发登录页面的代码,涵盖组件定义、界面布局、事件处理、样式设置及异步操作等内容,展示了清晰的组件结构、响应式设计与模块化编程的优势。通过这段代码,开发者可以快速上手并构建高效、美观的应用界面。
|
Go 开发者
Golang深入浅出之-Go语言项目构建工具:Makefile与go build
【4月更文挑战第27天】本文探讨了Go语言项目的构建方法,包括`go build`基本命令行工具和更灵活的`Makefile`自动化脚本。`go build`适合简单项目,能直接编译Go源码,但依赖管理可能混乱。通过设置`GOOS`和`GOARCH`可进行跨平台编译。`Makefile`适用于复杂构建流程,能定义多步骤任务,但编写较复杂。在选择构建方式时,应根据项目需求权衡,从`go build`起步,逐渐过渡到Makefile以实现更高效自动化。
468 2
|
缓存 Java 测试技术
如何避免内存泄漏
【10月更文挑战第19天】如何避免内存泄漏
224 0
|
消息中间件 缓存 JSON
培训班老师说可以用这个干掉一大批面试者
培训班老师说可以用这个干掉一大批面试者
233 0
培训班老师说可以用这个干掉一大批面试者