modelscope-funasr服务部署使用方法下，是否有模型可以支持说话人分离后识别？

modelscope-funasr服务部署使用方法（docker配置runtime）下，是否有模型可以支持说话人分离后识别（例如speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn）？好像并不能直接在--model-dir参数里指定，我理解这个模型没有onnx。这是否意味着不能在服务部署中使用，是否有支持计划呢？

展开

收起

三分钟热度的鱼 2024-03-06 20:18:30 843 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

ModelScope-Funasr目前没有直接支持说话人分离后识别的模型，但有其他模型可以实现语音分离。

在ModelScope-Funasr的服务部署中，通常需要指定模型目录来加载模型进行推理。如果你提到的speech_paraformer-large-vad-punc-spk_asr_nat-zh-cn模型不存在ONNX格式，那么可能无法直接通过--model-dir参数在服务部署中使用。这是因为ModelScope-Funasr的服务部署可能依赖于ONNX运行时来进行模型的加载和执行。

不过，ModelScope-Funasr提供了其他的语音处理模型，例如MossFormer语音分离模型，这个模型可以在两人对话的情况下进行有效的语音分离。虽然它不是专门为说话人分离后识别设计的，但它可以作为预处理步骤来提高后续识别的准确性。

此外，如果你需要在服务部署中使用特定的模型，但该模型不支持ONNX格式，你可能需要寻找将该模型转换为ONNX格式的方法，或者寻找其他兼容的服务部署方案。同时，你也可以关注ModelScope-Funasr的更新，看看是否有计划支持新的模型或者提供新的解决方案。

总之，虽然ModelScope-Funasr目前可能没有直接支持说话人分离后识别的模型，但你仍然可以利用现有的语音分离模型作为替代方案，或者探索其他可能的解决方案来实现你的需求。

2024-03-08 19:57:00

赞同展开评论
请看我回答~

阿里云大降价~

ModelScope-Funasr确实支持说话人分离后识别的模型。

在ModelScope-Funasr中，存在一些模型能够同时进行热词识别和说话人识别，例如Paraformer-large热词模型。这个模型不仅能处理长音频，还能在此基础上添加说话人识别功能，支持中文和英文，并且可以利用阿里巴巴的大量语音数据进行训练，以提高热词的召回率和准确率。此外，Paraformer模型在返回识别结果的同时，还能提供每个子句的说话人分类结果，这对于后续的说话人相关任务非常有帮助。

对于服务部署，ModelScope-Funasr通过Docker配置Runtime的方式提供了一套完整的服务部署解决方案。如果需要使用ModelScope中发布的预训练模型，确保已经安装了ModelScope。如果预测时无法使用GPU，可能是因为没有安装PyTorch，或者是与其他库版本不兼容。

总的来说，ModelScope-Funasr提供了强大的语音处理功能，包括说话人分离后的识别，以及通过Docker进行服务部署的完整方案。这些功能使得ModelScope-Funasr在语音识别领域具有广泛的应用前景。

2024-03-07 18:53:53

赞同展开评论
圆不溜秋的小猫猫

目前没有计划。此回答整理自钉群“modelscope-funasr社区交流”

2024-03-06 20:44:09

赞同展开评论

modelscope-funasr服务部署使用方法下，是否有模型可以支持说话人分离后识别？

自然语言处理

相关文章

相关解决方案

热门讨论

热门文章