开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

modelscope-funasr的Whisper-large-v3这个模型可以和vad一起使用吗?

modelscope-funasr的Whisper-large-v3这个模型可以和vad一起使用吗? e0439d8a8c50b0a7df25c62e30c314f6.png

展开
收起
三分钟热度的鱼 2024-03-20 15:56:48 269 0
2 条回答
写回答
取消 提交回答
  • 阿里云大降价~

    理论上可以,modelscope-funasr的Whisper-large-v3模型可以和VAD(Voice Activity Detection,语音活动检测)一起使用。

    Whisper是一个由OpenAI开源的自动语音识别(ASR)工具,它旨在提供高质量的语音转文本服务。ModelScope-FunASR则是希望在语音识别方面建立学术研究和工业应用之间的桥梁,支持在ModelScope上发布的工业级语音识别模型的训练和微调。

    在实际应用中,VAD用于检测音频中的有效语音部分,从而可以减少背景噪声的干扰,提高语音识别的准确性。Whisper模型在处理语音转文本时,可以与VAD结合使用,以优化识别结果。有实践者分享了在使用Whisper时,可以通过设置batch_size_s=0.001来配合VAD使用。

    此外,为了获得更好的中文语音识别效果,Whisper的使用者可以针对中文的语音做一些优化措施,比如中文文本标注优化等。这些优化可以帮助Whisper在中文领域的转写能力得到提升,使其在与FunAsr等其他模型的比较中更具竞争力。

    总的来说,Whisper-large-v3模型可以与VAD一起使用,以期提高语音识别的准确性和效率。不过,具体的实现方式和效果可能需要根据实际的应用场景和需求进行调整和测试。

    2024-03-27 18:22:35
    赞同 展开评论 打赏
  • 理论上可以,batch_size_s=0.001。此回答整理自钉群“modelscope-funasr社区交流”

    2024-03-20 16:23:26
    赞同 1 展开评论 打赏

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

热门讨论

热门文章

相关电子书

更多
视觉AI能力的开放现状及ModelScope实战 立即下载
ModelScope助力语音AI模型创新与应用 立即下载
低代码开发师(初级)实战教程 立即下载