会议场景是一个典型的多人自由交谈的场景,存在一个普遍的现象是多人同时说话造成的混叠语音。这种混叠语音的存在对于后续语音增强,语音识别等任务都造成了很大的挑战。
针对混叠语音检测问题,提出了两个技术方案:
1)联合声学特征和空间特征的混叠语音检测技术(论文);
2)BeamTransformer: 基于麦克风阵列的Transformer结构(论文)。
——参考链接。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。