开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr有哪个VAD模型可以获得说话的语义端点的?

modelscope-funasr有哪个VAD模型可以获得说话的语义端点的?我现在面临一个问题是,当我向麦克风说话,中间有思考停顿的时候,现有VAD就会把语音切割成两段,送给ASR。我希望类似“我想一下哈,唔...(这里停顿了一下来思考),是这样的,我有一个想法”,能够整段送入ASR。这个有什么VAD模型或者其他的方案吗?我需要做语音对话机器人,如果切割成两个片段,那么我就会将前半句话送入LLM,LLM回复的内容就比较奇怪。我需要一个机制能识别说话人的话说完了,将整句话送入LLM,然后等待LLM返回响应的内容。

展开
收起
三分钟热度的鱼 2024-03-27 17:00:23 140 0
3 条回答
写回答
取消 提交回答
  • 郑程睿,具身智能算法工程师,任职于阿里巴巴、申昊科技

    silero-vad

    2024-04-22 17:20:01
    赞同 展开评论 打赏
  • 在ModelScope-Funasr中,要解决您描述的问题,可以考虑使用基于深度学习的端到端语音识别(ASR)模型,而不是传统的语音活动检测(VAD)加ASR的组合。端到端ASR模型可以更好地处理停顿和思考的情况,因为它在训练时就能学习到这些语音模式,并且能够将整个语句作为一个整体进行处理。

    对于需要等待说话人说完整个句子再进行处理的场景,端到端ASR模型通常能够提供更好的识别结果。这是因为它们在设计时就考虑了实际对话中的自然停顿、语气变化等因素,而不是简单地根据声音的有无来切割语音。

    在ModelScope-Funasr中,您可以寻找具有以下特点的端到端ASR模型:

    1. 长短期记忆网络(LSTM)或Transformer架构:这些模型能够捕捉长距离的依赖关系,对于处理长句子和自然语言中的停顿更为有效。
    2. 带有针对性的训练数据:选择那些在收集训练数据时包括了自然对话和停顿的模型。
    3. 整句处理能力:选择设计用来处理整句或者较长话语的模型,而不是仅仅针对短句或命令的模型。

    如果您希望进一步优化VAD的性能,可以考虑以下方案:

    1. 自定义VAD模型:如果现有的VAD模型不能满足需求,可以尝试自己训练一个VAD模型,使用包含思考停顿的语音数据进行训练。
    2. 调整VAD阈值:通过调整VAD的敏感度阈值,减少误判为无声的情况,但这可能会增加背景噪声的干扰。
    3. 连续语音识别:使用连续语音识别技术,而不是依赖于VAD来分割语音。
    4. 后处理规则:在ASR之后加入一些后处理规则,将短时间的停顿自动合并到前一句或后一句中。

    总的来说,为了解决您的问题,建议使用端到端的ASR模型,并结合适当的后处理策略,以便更好地处理自然对话中的思考停顿。

    2024-03-31 09:25:16
    赞同 展开评论 打赏
  • vad完成不了你说的这个功能。你需要的功能,都可以从nlp来下手处理。
    此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-27 17:23:06
    赞同 2 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载