modelscope-funasr的sensevoice支持识别长音频文件(1分钟以上),输出分句级别的起始时间、结束时间、句子内容吗?
像这样的效果:“Start: 5.42s, End: 8.28s, Text: 当然这对普通民众来说有认知偏差”,而不是这样的“Start: 40.12s, End: 48.12s, Text: 虽然我们说他们是依照消耗品生产的,但机械化程度高的产品永远比电子程度高的产品拥有更长的生命周期。”
如果只是中文识别需求,可以先用paraformer-zh,sensevocie主要是支持多语言,中文效果没有paraformer好 此回答整理自钉群“modelscope-funasr社区交流”