技术沙龙直播｜3D-Speaker多模态说话人开源详解-阿里云开发者社区

技术沙龙直播｜3D-Speaker多模态说话人开源详解

2024-06-13 624

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 技术沙龙直播｜3D-Speaker多模态说话人开源详解

文章来自阿里语音AI公众号

3D-Speaker是通义实验室语音团队贡献的一个结合声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志，说话人识别和语种识别任务，开源了多个任务的工业级模型，训练代码和推理代码。

该项目上线以来，受到了诸多开发者们的关注和喜爱，本次特别推出多种模态结合的新开源代码，并邀请三位代码贡献者工程师进行直播讲解。分享嘉宾：陈亚峰、王绘、程路遥时间：2024年5月22日晚 20:00-21:30

本项目同时还开源了相应的研究数据集3D-Speaker dataset，涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本，适用于远近场、跨设备、方言等高挑战性的语音研究，供各位AI开发爱好者品鉴。

‍▎技术分享环节

NO.1 基于经典声学信息进行说话人和语种识别

3D-Speaker包含基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中，说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。代码提供多种数据增强算法，支持各SOTA模型多卡并行训练以及多种损失函数。NO.2 结合视觉信息的说话人日志

除了传统的纯音频说话人日志路线，3D-Speaker开源了结合视觉信息的技术方案，通过同时挖掘音、视频特征，显著提高在复杂对话场景中的识别准确率。NO.3 结合语义的说话人日志音频中的说话人相关的语义信息不容易受复杂声学场景影响，3D-Speaker开源了相关语义说话人信息建模模块，并探索了语义信息结合的说话人日志技术。NO.4 语义+视觉信息的说话人日志3D-Speaker提出了一种将语义、视觉信息同时作用于基于聚类算法的说话人日志任务的统一框架，将多模态的信息统一建模为成对约束并应用到说话人日志任务中。NO.5 3D-Speaker数据集开源3D-Speaker同时开源了一个研究数据集3D-Speaker dataset，包含多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)信息的说话人数据集。

魔搭ModelScope社区

‍▎3D-Speaker数据集开源

3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset，涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本，适用于远近场、跨设备、方言等高挑战性的语音研究。

下载地址：https://3dspeaker.github.io/数据集论文：https://arxiv.org/pdf/2306.15354.pdf

技术沙龙直播｜3D-Speaker多模态说话人开源详解

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

技术沙龙直播｜3D-Speaker多模态说话人开源详解

热门文章

最新文章

相关电子书