开发者社区> 问答> 正文

达摩院语音实验室提出的混叠语音检测技术有哪些主要方案?

达摩院语音实验室提出的混叠语音检测技术有哪些主要方案?

展开
收起
圆葱猪肉包 2024-08-21 14:52:47 11 0
1 条回答
写回答
取消 提交回答
  • 会议场景是一个典型的多人自由交谈的场景,存在一个普遍的现象是多人同时说话造成的混叠语音。这种混叠语音的存在对于后续语音增强,语音识别等任务都造成了很大的挑战。

    针对混叠语音检测问题,提出了两个技术方案:

    1)联合声学特征和空间特征的混叠语音检测技术(论文);
    image.png

    2)BeamTransformer: 基于麦克风阵列的Transformer结构(论文)。
    image.png

    ——参考链接。

    2024-08-31 07:43:39
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载