【机器学习算法】11、高斯混合模型算法+语音识别项目实战(一)

简介: 【机器学习算法】11、高斯混合模型算法+语音识别项目实战(一)

简介


  高斯混合模型(Gaussian Mixture Model, GMM) 是一种应用广泛的聚类算法。该方法通过对多个高斯模型做线性组合,对样本数据的概率密度分布进行估计,以达到聚类的目的。


   高斯混合模型的主要思想使用高斯分布作为参数模型,并使用期望最大化(EM)算法进行参数估计。其中,每个高斯分布代表一个类。我们将样本数据分别在几个高斯分布上投影, 就得到数据在各个类别上的概率值最大的类作为估计结果。


   从中心极限定理的角度来看,把混合模型假设为高斯模型是较为合理的。当然,也可以根据实际数据假设为任何分布类型的混合模型,不过假设为高斯模型较容易计算和推导。另外,理论上,我们也可以通过增加模型的个数,使高斯混合模型近似任何类型的概率分布。


高斯混合模型的应用领域


(1)数据集分类;

(2)图像分割及特征提取,如医学图像中将直方图的多峰特征看作多个高斯分布的叠加,以解决图像的分割问题;

(3)语音分割及特征提取,如从噪声中提取某个人的声音、 从音乐中提取背景音乐等;

(4)视频分析及特征提取,如智能监控系统中对运动目标检测的检测提取。


高斯混合模型算法流程



高斯混合模型算法具体步骤


(1)构建高斯混合模型;

   首先,需要对高斯混合模型的形式进行改写,以便于使用 EM 算法估计模型参数。高斯混合模型的原始形式如下:

dcc70c64dc7e00cb28b7cc9c7514b06f.png

   其中,K 表示高斯分布模型的个数,K 个模型就对应 K 个聚类。πk为第 k 个模型的权重,也可以看成第 k 类被选中的概率, 引入一个新的 K 维随机变量 z,zk只能取 0 或 1 两个值。zk=1 表示第 k 类被选中的情况,即 p(zk=1)=πk;zk=0 表示第 k 类未被选中的情况。zk 满足以下两个条件:

64839ce6cec1923376c3b817bf217ea1.png

   假设 zk 之间是独立同分布的,可以写出 z 的联合概率分布形式:

dcc70c64dc7e00cb28b7cc9c7514b06f.png

每一类中的数据都服从高斯分布, 用条件概率的形式表示如下:

482a9764ae1e04a0c17aa5cf7b799a6e.png

进而可以写出如下的形式:

29081c4777acab6ccbff55f42a9b6354.png

根据条件概率公式, 可以求出 p(x)的形式:

4550d769a2c0eeba26981296b538b4c5.png

   式(6)为改进后的高斯混合模型,可以看出该式与原始模型有一样的形式。式(6)中引入了新的变量 z,但 zk=0 的项为 1,省略。变量 z 通常称为隐变量。“隐变量” 的意思是:随机选择一个数据点,但是不知道该数据点属于哪一类,数据点的归属观察不到,因此引入隐变量 z 来描述这一现象。


   在贝叶斯的思想下,能够求得后验概率 p(z|x):

3f648c59393c256e242665d212995547.png


(2)EM 算法估计模型参数:

  假设样本数据X={x1,x2,...,xN},高斯混合模型有3个参数需要估计,分别是πk、μk 和Σk。为了估计折3个参数,需要分别求解出这3个参数的最大似然函数。


①初始化模型数目K,对每个模型k设置πk、μk和Ck的初始值。

方案1:将协方差矩阵Ck设置为单位矩阵,每个模型的权重πk=1/K,均值μk设为随机数;

方案2:用K-Means聚类算法对样本进行聚类,得到K值,然后利用各类的均值作为μk,并计算协方差矩阵Σkπk 取各类样本占样本总数的比例。


②估计步骤(E-Step),计算后验概率γ (znk):

根据当前的πk、μk 和Σk,计算后验概率γ(znk)

fa1934f70811f66fa927013b1fc0744e.png

③最大化步骤(M-Step), 更新参数:

根据E-Step中计算的γ(znk)再计算新的πk、μk 和Σk

337e5d48fe005bd26f0da0f47ffd4528.png

N表示样本数量的量,γ(znk)表示数据n属于聚类k的后验概率。Nk表示属于第k个聚类的数据的量。μknew表示第k类数据的加权平均,每个样本数据的权值式γ(znk),跟第 k 个聚类有关。


④收敛条件

计算模型的对数似然函数:

fa93011e1c8079779d54f23b6ba7865a.png

检查参数是否收敛或对数似然函数是否收敛,收敛则推出迭代,否则返回第②步。


算法的改进与优化


   因提出时间较早,随着其他技术的不断更新和完善,高斯混合模型的诸多不足之处也逐渐显露,因此许多高斯混合模型的改进算法也应运而生。高斯混合模型是用高斯概率密度函数精确地量化事物,它是一个将事物分解为若干基于高斯概率密度函数形式的模型。在这个过程中,容易出现K值固定导致估计参数不具有最优性的问题。针对以上算法的不足之处,算法的改进主要为自适应调整K的值。


   高斯混合模型保持固定不变的高斯混合模型的个数K,会造成系统运算资源的浪费。一种改进方法式利用最大似然估计提出高斯混合模型个数的选择方法,引入了负的先验概率,当权值小于阈值时,减少高斯混合模型的个数。另一种改进方法是消除混合分量,在此判断 K 的最优值,从而使高斯混合模型对数据集进行最佳拟合。如果两个混合分量有相同的参数,在混合分量中采用竞争原则,将不必要的分量消除。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
764 109
|
4月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
月之暗面发布开源模型Kimi K2,采用MoE架构,参数达1T,激活参数32B,具备强代码能力及Agent任务处理优势。在编程、工具调用、数学推理测试中表现优异。阿里云PAI-Model Gallery已支持云端部署,提供企业级方案。
331 0
【新模型速递】PAI-Model Gallery云上一键部署Kimi K2模型
|
2月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
7月前
|
人工智能 JSON 算法
【解决方案】DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen 系列是阿里云人工智能平台 PAI 推出的蒸馏语言模型系列,包括 DistilQwen2、DistilQwen2.5、DistilQwen2.5-R1 等。本文详细介绍DistilQwen2.5-DS3-0324蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践。
|
3月前
|
并行计算 算法 语音技术
基于MFCC(梅尔频率倒谱系数)和GMM(高斯混合模型)的语音识别
基于MFCC(梅尔频率倒谱系数)和GMM(高斯混合模型)的语音识别
|
5月前
|
机器学习/深度学习 算法 安全
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
本文探讨在敏感数据上应用差分隐私(DP)进行机器学习的挑战与实践。通过模拟DP-SGD算法,在模型训练中注入噪声以保护个人隐私。实验表明,该方法在保持71%准确率和0.79 AUC的同时,具备良好泛化能力,但也带来少数类预测精度下降的问题。研究强调差分隐私应作为模型设计的核心考量,而非事后补救,并提出在参数调优、扰动策略选择和隐私预算管理等方面的优化路径。
408 3
差分隐私机器学习:通过添加噪声让模型更安全,也更智能
|
4月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
5月前
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (4):模型微调SFT、DPO、GRPO
阿里云人工智能平台 PAI 提供了完整的模型微调产品能力,支持 监督微调(SFT)、偏好对齐(DPO)、强化学习微调(GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级,分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。
|
5月前
|
机器学习/深度学习 分布式计算 Java
Java 大视界 -- Java 大数据机器学习模型在遥感图像土地利用分类中的优化与应用(199)
本文探讨了Java大数据与机器学习模型在遥感图像土地利用分类中的优化与应用。面对传统方法效率低、精度差的问题,结合Hadoop、Spark与深度学习框架,实现了高效、精准的分类。通过实际案例展示了Java在数据处理、模型融合与参数调优中的强大能力,推动遥感图像分类迈向新高度。

相关产品

  • 人工智能平台 PAI
  • 智能语音交互