备案控制台

开发者社区 > ModelScope模型即服务 > 自然语言处理 > 正文

在modelscope-funasr官方的示例音频，用vad出来有26秒，实际是13秒，怎么回事？

在modelscope-funasr官方的示例音频，用vad出来的有26秒，实际是13秒，怎么回事？

展开

收起

三分钟热度的鱼 2024-03-27 17:00:23 100 0

1 条回答

写回答

取消提交回答

mrq4nk6ni2neg
使用ModelScope-Funasr的VAD模块处理官方示例音频时，出现识别时长比实际音频时长长的情况，可能是由于几个原因造成的：
1. max_end_silence_time参数设置：在ModelScope-Funasr的VAD模块中，有一个参数叫做max_end_silence_time，它用于控制识别结束时的最长静音时间。如果在这个时间内没有检测到任何语音活动，则认为语音已经结束，识别过程将停止。如果这个参数设置得过长，就可能导致在语音结束后仍有较长时间才停止识别。
2. 环境噪音影响：如果录音环境中存在背景噪声，这可能会干扰VAD的正常工作，导致它无法准确检测到语音的结束点。在这种情况下，VAD可能会将部分噪声误判为语音，从而延长了识别出的语音时长。
3. 模型特性：Paraformerarge模型集成了VAD、ASR等功能，能够处理长时间的音频并进行识别。但是，具体的模型性能和准确性可能会受到多种因素的影响，包括模型的设计、训练数据等。
总的来说，如果您遇到这样的问题，建议检查并调整max_end_silence_time参数的设置，尝试在更安静的环境中录音，或者调整VAD的灵敏度设置，以优化识别效果。同时，也可以考虑查看官方文档或社区论坛，看是否有其他用户遇到类似问题并提供了解决方案。如解决，可以向ModelScope-Funasr的维护者报告此问题，以便进一步的调查和修复。
2024-03-31 09:33:50

赞同展开评论打赏

相关问答

在modelscope-funasr为什么识别的内容和音频不一致呀？

34

1

0

modelscope-funasr 可以输入音频吗而不是文件？

30

1

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

49

0

0

modelscope-funasr的音频情感识别，用sensevoice好还是emotion2ve？

48

0

0

modelscope-funasr的error in vad可能是什么原因啊？

40

1

0

modelscope-funasr实时流模式，对音频pcm的数据要求是什么呢？

65

0

0

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

41

0

0

modelscope-funasr使用离线这个推理示例音频的时候，报了错误，是为什么？

33

1

0

modelscope-funasr20ms的情况下vad参数是如何设置的？

43

0

0

请问用modelscope里swift的dpo微调模型的断点Debug方式，有相关文档说明吗？

53

1

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

热门讨论

热门文章

modelscope-funasr的FunClip怎么安装的？

小白求助，跟着大模型微调教程做不太明白

如何下载llama模型到本地？

modelscope-funasr的 sense voice和funasr的底层asr能力是一样吗？

在modelscope-funasr中找不到有效的 OpenPGP 数据，如何解决？

报错AssertionError: choose a window size 400 that is

modelscope-funasr在安卓平台可以集成sense voice吗？

modelscope-funasr有没有开源的语音唤醒，自定义唤醒？

modelscope-funasr这个模型默认下载的路径是什么呢？可以改下载路径吗？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

展开全部

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

2024年6月118篇代码大模型论文最全整理

告别Hugging Face模型下载难题：掌握高效下载策略，畅享无缝开发体验

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

【AI 技术分享】大模型与数据检索的探索实践

基于LangChain-Chatchat实现的本地知识库的问答应用-快速上手（检索增强生成(RAG)大模型）

如何使用自然语言处理库`nltk`进行文本的基本处理

ModelScope X 昇腾910快速上手

检索增强生成(RAG)实践：基于LlamaIndex和Qwen1.5搭建智能问答系统

展开全部

相关课程

更多

个性化语音合成模型微调

252

1

去学习

ModelScope社区Library技术架构介绍

227

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载