在阿里语音AI我们对接的实时音转文,分段逻辑是否能够调整?现在分段太密集了。我的需求是分段可以再宽松一下,因为我们是客服场景,需要质检文本内容,被拆开的话会检测不到部分内容。taskId=247aebafc14b48e884a5f36030ae5fab 客户侧 taskId=9b743e9d8d6b4125b405e344ca321886 座席侧
在阿里语音AI中,实时音频转写服务提供了音频分段的参数配置,可以通过调整该参数实现分段逻辑的调整,从而控制分段的密集程度。
具体的参数配置有两个,分别是:
maxSentenceSilence:表示两个连续的音频段之间的最大静音时间,超过该时间则会自动分段。默认值为 6000 毫秒。 maxSentenceDuration:表示一个音频段的最大时长,超过该时长则会自动分段。默认值为 60000 毫秒。 您可以根据实际情况调整这两个参数的值,以控制分段的密集程度。如果分段过于密集,可以适当调高 maxSentenceSilence 的值;如果分段太长,可以适当调低 maxSentenceDuration 的值。
同时,阿里语音AI还提供了停止转写的接口,您可以在分段过程中主动调用该接口停止转写,然后再重新开始转写,从而实现更加精细的分段控制。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。