开发者社区> 问答> 正文

在端到端语音识别模型中,时间戳预测面临的主要挑战是什么?

在端到端语音识别模型中,时间戳预测面临的主要挑战是什么?

展开
收起
夹心789 2024-06-24 20:00:43 45 0
1 条回答
写回答
取消 提交回答
  • 在端到端语音识别模型中,时间戳预测面临的主要挑战是无法像传统基于HMM的模型那样天然地在解码器中获取输出token的时间戳。CTC/Transducer模型面临尖峰偏移的问题,而Transformer/LAS模型进行非帧同步的解码,因此不能直接获取时间戳。

    2024-06-24 20:30:50
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云总监课第二期——IoT时代的语音交互智能 立即下载
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
智能语音交互:阿里巴巴的研究与实践 立即下载