文档备案控制台

开发者社区 ModelScope模型即服务自然语言处理正文

modelscope-funasr的Whisper-large-v3这个模型可以和vad一起使用吗？

modelscope-funasr的Whisper-large-v3这个模型可以和vad一起使用吗？

展开

收起

三分钟热度的鱼 2024-03-20 15:56:48 813 版权

2 条回答

写回答

取消提交回答

请看我回答~

阿里云大降价~

理论上可以，modelscope-funasr的Whisper-large-v3模型可以和VAD（Voice Activity Detection，语音活动检测）一起使用。

Whisper是一个由OpenAI开源的自动语音识别（ASR）工具，它旨在提供高质量的语音转文本服务。ModelScope-FunASR则是希望在语音识别方面建立学术研究和工业应用之间的桥梁，支持在ModelScope上发布的工业级语音识别模型的训练和微调。

在实际应用中，VAD用于检测音频中的有效语音部分，从而可以减少背景噪声的干扰，提高语音识别的准确性。Whisper模型在处理语音转文本时，可以与VAD结合使用，以优化识别结果。有实践者分享了在使用Whisper时，可以通过设置batch_size_s=0.001来配合VAD使用。

此外，为了获得更好的中文语音识别效果，Whisper的使用者可以针对中文的语音做一些优化措施，比如中文文本标注优化等。这些优化可以帮助Whisper在中文领域的转写能力得到提升，使其在与FunAsr等其他模型的比较中更具竞争力。

总的来说，Whisper-large-v3模型可以与VAD一起使用，以期提高语音识别的准确性和效率。不过，具体的实现方式和效果可能需要根据实际的应用场景和需求进行调整和测试。

2024-03-27 18:22:35

赞同展开评论
圆不溜秋的小猫猫

理论上可以，batch_size_s=0.001。此回答整理自钉群“modelscope-funasr社区交流”

2024-03-20 16:23:26

赞同 1 展开评论

相关问答

为什么modelscope模型库里面chinese-hubert-base 页面是错误，是模型下架吗

298

0

0

modelscope-funasr的vad模型对输入的语音长度是不是有最短时长的要求？

354

0

0

modelscope-funasr的error in vad可能是什么原因啊？

341

1

0

modelscope-funasr够支持直接在automodel类使用附加vad模型的参数吗？

362

0

0

modelscope-funasr20ms的情况下vad参数是如何设置的？

297

0

0

modelscope-funasr的VAD算法报错，如何处理？

402

0

0

您好我想问一下，在modelscope用OneKE模型去做知识图谱应该用re 还是ner 呀？

230

0

0

在modelscope-funasr中请问vad模型是只能用16k采样率的音频吗？

274

0

0

在modelscope-funasr中如果isfinal传false那vad返回的全是完整语音段吗？

232

0

0

在modelscope-funasr中如何通过vad判断最后一段语音的结束点位置？

305

0

0

ModelScope模型即服务

自然语言处理

包含命名实体识别、文本分类、分词、关系抽取、问答、推理、文本摘要、情感分析、机器翻译等多个领域

我要提问

相关文章

AI元认知雏形

保密检查在本项目中的总体链路：从按钮到任务清单：免费开源的文档编审软件WPS AI插件.察元AI 文档助手

语义压缩，才是提示词工程的底层心法

阿里云自然语言处理全栈对接指南：从入门到企业级集成实战

MCP 工具生态升温后，企业 AI 中台要解决什么问题？

相关解决方案

更多

GLM-5.2：长任务时代开源旗舰模型

基于 Spark 和 PyTorch 的模型训练方案

OpenAI 重磅开源，快速部署GPT-OSS模型

模型蒸馏：让0.6B模型媲美235B模型

一键训练模型及部署GPU共享推理服务

热门讨论

热门文章

我是一个小白，本机部署adaseq，vscode找不到modelscope的module

在modelscope-funasr针对中文通话 SenseVoice和paraforma效果谁好？

如何修改通义千问的system prompt，以修改自定义名字

运行官方示例在win环节下conda中报错

modelscope-funasr的SenseVoiceLarge模型在哪里啊？

modelscope-funasr 热词如何设置？

为啥都不能很好的处理文本鉴黄

如何下载llama模型到本地？

请问微调开元模型qwe1.5b 和 7b 分别支持数据集的上下文长度是多少个汉字/token？

modelscope-funasr中命令行用法如何生成带时间戳的结果？

展开全部

使用宝塔面板部署 AstrBot 与 NapCat 实现 QQ 机器人

智胜未来：国内大模型+Agent应用案例精选，以及主流Agent框架开源项目推荐

[大模型实战 03预备] 云端炼丹房 1：Google Colab 上手指南

Cline：29.7K Star！一文详解VSCode最强开源AI编程搭子：一键生成代码+自动跑终端+操控浏览器...

[大模型实战 01] 本地大模型初体验：Ollama 部署与 Python 调用指南

FireCrawl：开源 AI 网络爬虫工具，自动爬取网站及子页面内容，预处理为结构化数据

ComfyUI-Copilot：阿里把AI助手塞进ComfyUI：一句话生成工作流，自动布线/调参/选模型，小白秒变大神！

通古大模型：古籍研究者狂喜！华南理工开源文言文GPT：AI自动断句+写诗翻译，24亿语料喂出来的学术神器

MCP 工具生态升温后，企业 AI 中台要解决什么问题？

RAG+AI工作流+Agent：LLM框架该如何选择，全面对比MaxKB、Dify、FastGPT、RagFlow、Anything-LLM,以及更多推荐

展开全部

还有其他疑问?