开发者社区> 问答> 正文

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?

语音AI中在使用语音识别的时候,生成的字幕与原视频的时间校准,有什么好的方案推荐吗?使用场景是这样的,我需要录制一个直播视频,并将视频内的语音转文字,并存储起来。 1、我的录制使用的hls格式,延时较大。 2、语音转文字使用flv格式,延时低,但这就导致了字幕与录制视频有时间差。 3、当我使用hls去做语音识别的时候,每个视频切片间隔时间为16秒左右,但是语音识别在推流超过一定时间,websocket就会断开。报错 too large binary send interval: 14204 million second 这个超时时间可以设置的长一点吗?

展开
收起
fuxixi 2022-12-12 17:51:44 565 1
1 条回答
写回答
取消 提交回答
  • 服务端这个没办法更改您这边看看能否发静音数据保持连接。此答案整理自钉钉群“阿里语音AI【3群】”

    2022-12-13 10:37:00
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云总监课第二期——Neural Network Language Model在语音识别中的应用 立即下载
阿里云总监课第二期——Latency Controlled-BLSTM模型在语音识别中的应用 立即下载
智能语音交互:阿里巴巴的研究与实践 立即下载