备案控制台

开发者社区 > ModelScope模型即服务 > 语音 > 正文

AssertionError / TypeError 两处报错疑问

系统：ubuntu/gpu docker 模型：Paraformer语音识别-中文-通用-16k-离线-large-长音频版地址：https://modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 其他配置：funasr:0.3.1，modelspace:0.4.1，pytorch

报错一：

/automatic_speech_recognition/FunASR-main/funasr/utils/timestamp_tools.py in ts_prediction_lfr6_standard(us_alphas, us_peaks, char_list, vad_offset, force_time_shift, sil_in_str)
     37     fire_place = torch.where(peaks>1.0-1e-4)[0].cpu().numpy() + force_time_shift  # total offset
     38     num_peak = len(fire_place)
---> 39     assert num_peak == len(char_list) + 1 # number of peaks is supposed to be number of tokens + 1
     40     # begin silence
     41     if fire_place[0] > START_END_THRESHOLD:

AssertionError:

不确定什么情况，测试音频文件时候，有几个一直报错如上信息看了issue#266 难道还是这个问题？ rapid_paraformer推理时当语音中包含英文时，由于英文tokens已经合并，会导致跟时间戳无法对齐 （https://github.com/alibaba-damo-academy/FunASR/issues/266）

报错二：

inference_pipeline = pipeline(
    task=Tasks.auto_speech_recognition,
    model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
    vad_model="",
    punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
    punc_model_revision="v1.1.6")

该模型无法设置vad_model = ‘’，会报错：

TypeError: 'NoneType' object is not callable

以上提问也同步在： https://github.com/alibaba-damo-academy/FunASR/issues/295

展开

收起

Paraformer语音识别-中文-通用-16k-离线-large-长音频版

游客xs36fpzxzdece 2023-03-25 21:30:17 797 0

1 条回答

写回答

取消提交回答

游客yyuon7u7y35mg

您好，感谢您的反馈，欢迎加入我们的钉钉交流群（搜索群号27215013275，或扫码加入），如有任何问题可及时交流~ 报错一：尝试更新到目前modelspace和funasr最新版本，若依然有报错，可加入我们的钉钉群，有值班同学，协助您来解决。报错二：目前paraformer-large长音频版本模型需要结合vad来使用，若不需要使用vad模型，可直接使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch

2023-04-03 10:47:01

赞同展开评论打赏

相关问答

this xml file does not appear to have any style in

35438

8

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

235135

10

0

如果购买了域名，一定要备案才能用吗

38390

36

0

com/action/joingroup?code=v1是什么意思

207875

20

0

OSS的endpoint如何查看

30552

3

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

95235

16

0

配置了安全组规则，端口还是无法访问

28200

21

0

企业邮箱

9123

7

0

什么是红帽认证？

3019

1

0

建设网站

3936

2

0

ModelScope模型即服务

语音

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

我要提问

热门讨论

热门文章

modelscope上跑报错，提示要pip install ttsfrd，搞不定

关于 Windows平台上 ttsfrd 库的问题。

KeyError: 'asr-inference is not in the pipelines r

ttsfrd 是不开源的吗

modelscope 更新指定版本

No module named 'ttsfrd'

【欢迎贴】ModelScope智能语音交互技术圈板块互动评论区说明

零门槛玩转AI声音定制，3分钟即可复刻你的发音模型

Load pinyin_en_mix_dict failed

如何训练出，带情绪控制（sad,happy...）的，自己音色的语音模型?

展开全部

CosyVoice 2.0：阿里开源升级版语音生成大模型，支持多语言和跨语言语音合成，提升发音和音色等的准确性

百聆：集成Deepseek API及语音技术的开源AI语音对话助手，实时交互延迟低至800ms

Clone-voice：开源的声音克隆工具，支持文本转语音或改变声音风格，支持16种语言

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

ClearerVoice-Studio：阿里通义开源的语音处理框架，提供语音增强、分离和说话人提取等功能

Weebo：支持多语言和实时语音交流的开源 AI 聊天机器人，回复具备语调、情感的语音

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

三行代码实现实时语音转文本，支持自动断句和语音唤醒，用 RealtimeSTT 轻松创建高效语音 AI 助手

KAN-TTS 在 conda 环境下无法安装 ttsfrd

ChatTTSPlus：开源文本转语音工具，支持语音克隆，是 ChatTTS 的扩展版本

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载