系统:ubuntu/gpu docker 模型:Paraformer语音识别-中文-通用-16k-离线-large-长音频版 地址:https://modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 其他配置:funasr:0.3.1,modelspace:0.4.1,pytorch
报错一:
/automatic_speech_recognition/FunASR-main/funasr/utils/timestamp_tools.py in ts_prediction_lfr6_standard(us_alphas, us_peaks, char_list, vad_offset, force_time_shift, sil_in_str)
37 fire_place = torch.where(peaks>1.0-1e-4)[0].cpu().numpy() + force_time_shift # total offset
38 num_peak = len(fire_place)
---> 39 assert num_peak == len(char_list) + 1 # number of peaks is supposed to be number of tokens + 1
40 # begin silence
41 if fire_place[0] > START_END_THRESHOLD:
AssertionError:
不确定什么情况,测试音频文件时候,有几个一直报错如上信息 看了issue#266 难道还是这个问题? rapid_paraformer推理时当语音中包含英文时,由于英文tokens已经合并,会导致跟时间戳无法对齐
(https://github.com/alibaba-damo-academy/FunASR/issues/266)
报错二:
inference_pipeline = pipeline(
task=Tasks.auto_speech_recognition,
model='damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch',
vad_model="",
punc_model='damo/punc_ct-transformer_zh-cn-common-vocab272727-pytorch',
punc_model_revision="v1.1.6")
该模型无法设置vad_model = ‘’,会报错:
TypeError: 'NoneType' object is not callable
以上提问也同步在: https://github.com/alibaba-damo-academy/FunASR/issues/295
您好,感谢您的反馈,欢迎加入我们的钉钉交流群(搜索群号27215013275,或扫码加入),如有任何问题可及时交流~ 报错一:尝试更新到目前modelspace和funasr最新版本,若依然有报错,可加入我们的钉钉群,有值班同学,协助您来解决。 报错二:目前paraformer-large长音频版本模型需要结合vad来使用,若不需要使用vad模型,可直接使用Paraformer语音识别-中文-通用-16k-离线-large-pytorch