开发者社区 > ModelScope模型即服务 > 语音 > 正文

UniASR实时语音识别模式

UniASR语音识别-中文-通用-16k-实时 这个模型的结果是normal模式还是fast模式呢?

展开
收起
游客l7hcmk2pbou5o 2022-12-08 20:04:20 1240 0
2 条回答
写回答
取消 提交回答
  • 您好,tf模型流式,指的是fast模式。pytorch模型流式,指的是normal模式。

    2022-12-13 15:12:43
    赞同 展开评论 打赏
  • UniASR 模型是一种2遍刷新模型(Two pass)端到端语音识别模型。日益丰富的业务需求,不仅要求识别效果精度高,而且要求能够实时地进行语音识别。一方面,离线语音识别系统具有较高的识别准确率,但其无法实时的返回解码文字结果,并且,在处理长语音时,容易发生解码重复的问题,以及高并发解码超时的问题等;另一方面,流式系统能够低延时的实时进行语音识别,但由于缺少下文信息,流式语音识别系统的准确率不如离线系统,在流式业务场景中,为了更好的折中实时性与准确率,往往采用多个不同时延的模型系统。为了满足差异化业务场景对计算复杂度、实时性和准确率的要求,常用的做法是维护多种语音识别系统,例如,CTC系统、E2E离线系统、SCAMA流式系统等。 image.png

    2022-12-08 23:22:59
    赞同 展开评论 打赏

包括语音识别、语音合成、语音唤醒、声学设计及信号处理、声纹识别、音频事件检测等多个领域

相关产品

  • 智能语音交互
  • 相关电子书

    更多
    阿里云总监课第二期——IoT时代的语音交互智能 立即下载
    阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
    智能语音交互:阿里巴巴的研究与实践 立即下载