达摩院开源工业级说话人识别模型CAM++-阿里云开发者社区

达摩院开源工业级说话人识别模型CAM++

2023-05-19 571

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

视觉智能开放平台，图像资源包5000点

简介： 近日，达摩院正式向公众开源工业级说话人识别通用模型CAM++，兼顾准确率和计算效率，训练labels类别达20万，每类含20～200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区，后续将陆续开源针对各场景优化的工业级模型。模型下载地址：https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/s

近日，达摩院正式向公众开源工业级说话人识别通用模型CAM++，兼顾准确率和计算效率，训练labels类别达20万，每类含20～200条梅尔频谱特征。当前该模型已上线Modelscope魔搭社区，后续将陆续开源针对各场景优化的工业级模型。

模型下载地址：https://www.modelscope.cn/models/damo/speech_campplus_sv_zh-cn_16k-common/summary

训练环境代码：https://github.com/alibaba-damo-academy/3D-Speaker/tree/main/egs/sv-cam%2B%2B

论文地址：https://arxiv.org/abs/2303.00332

在说话人识别领域中，主流的说话人识别模型大多是基于时延神经网络或者二维卷积网络，比如ECAPA-TDNN和ResNet模型，这些模型获得理想性能的同时，通常伴随着较多的参数量和较大的计算量。如何兼具准确识别和高效计算，实现整体优解，是当前说话人识别领域的研究热点之一。

为此，达摩院提出说话人识别模型CAM++。该模型主干部分采用基于密集型连接的时延网络（D-TDNN），每一层的输入均由前面所有层的输出拼接而成，这种层级特征复用和时延网络的一维卷积，可以显著提高网络的计算效率。

同时，D-TDNN的每一层都嵌入了一个轻量级的上下文相关的掩蔽（Context-aware Mask，CAM）模块。CAM模块通过全局和段级的池化操作，提取不同尺度的上下文信息，生成的mask可以去除掉特征中的无关噪声。TDNN-CAM形成了局部-段级-全局特征的统一建模，网络可以学习到特征中更加丰富的说话人信息。CAM++的前端模块是一个轻量的残差卷积网络，采用时频维度的二维卷积。相比一维卷积，二维卷积的感受野更小，可以捕获更加局部和精细的频域信息，同时，还对输入特征中可能存在的说话人特定频率模式偏移具有鲁棒性。