顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别（asr）接口-阿里云开发者社区

顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别（asr）接口

2023-04-08 1276

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别（asr）接口接口说明

启动ASR识别

APP

cti_detect_speech_session asrproxy_addr vad_mode vad_min_active_time_ms vad_max_end_silence_time_ms vad_level vad_filter wait_speech_timeout_ms max_speech_time_ms hot_word asr_params asr_notify asr_notify_uuid asr_mode [record_mode] [record_template] [record_format]

例子：

API

uuid_cti_start_detect_speech uuid asrproxy_addr vad_mode vad_min_active_time_ms vad_max_end_silence_time_ms vad_level vad_filter wait_speech_timeout_ms max_speech_time_ms hot_word asr_params asr_notify asr_notify_uuid asr_mode [record_mode] [record_template] [record_format]

asrproxy_addr asrproxy程序IIP和端口
vad_mode
- 0:使用本地VAD检测说话开始和结束
- 1:等待ASR反馈说开始和结束(需要ASR支持)
- 2:使用本地VAD检测检测说话开始，等待ASR反馈说话结束。
vad_min_active_time_ms 说话时间大于这个值才开始提交ASR
vad_max_end_silence_time_ms 静音时间大于这个值认为说话停止
vad_level vad检测灵敏度 0-3，值越大越迟钝，建议3
vad_filter 噪音过滤等级0-1.0，建议0.2，值越大过滤范围越大，会导致小的声音给过滤。 0.8启用神经网络的噪音过滤。
wait_speech_timeout_ms 最大等待说话时间，用于一句话识别（asr_mod：0），等待时间超过这个值还没说话，就停止。
max_speech_time_ms 说话事件超过这个值，会强制认为一句话结束。如果对接是是一句话识别ASR接口，建议设置60000以内。
hot_word ASR热词
asr_params ASR自定义参数
asr_notify ASR识别结果通知类型 0：ESL事件 1：FS的内部队列 2:ESL事件和FS的内部队列
asr_notify_uuid asr识别结果通知uuid
asr_mod 0：只识别一句话就停止 1：执行一次会持续进行ASR识别，直到挂机或者调用uuid_cti_stop_detect_speech才停止ASR识别

停止ASR识别

API

uuid_cti_stop_detect_speech uuid

uuid 操作通道的UUID

放音的同时执行ASR识别

app

cti_play_and_detect_speech <file> <mode> <interrupt> <vad_mode> <vad_filter> <asrproxy_addr> vad_min_active_time_ms vad_max_end_silence_time_ms wait_speech_timeout_ms max_speech_time_ms hot_word asr_params asr_notify_uuid record_mode record_template record_format

file 放音文件
mode 0:不启动ASR识别 1：放音的同时开启ASR识别; 2：放音完成之后才开启ASR识别。
interrupt 打断模式：
- 0：关键词打断；【关键词打断的可选功能，可以组合使用，比如要使用128和256，就设置384。】
  - 16: 放音结束后识别到一句话就停止等待（执行完成）。
  - 32 : 放音时识别到一句话，放音完成后就不等待（执行完成）(隐含16)。
  - 64：放音时检测到声音就暂停放音（只暂停放音，识别结果未匹配到关键词，还会恢复放音）。
  - 128 : 放音时如果有被禁止打断(disablebreak)过滤的识别结果，放音完成时,如果用户不在说话中,重新尝试关键词匹配（识别结果前面会加一个P）。
  - 256 : 放音时如果有未匹配的识别结果，放音完成时，如果用户不在说话中,再次尝试关键词匹配（识别结果前面会加一个P）。
  - 512 : dtmf按键打断(默认只有符合按键终止符才会停止放音，如果需要不符合按键终止符也停止放音，就需要设置这个参数)
- 1：检测到声音就打断；
- 2：ASR识别到文字就打断；
- 3：ASR识别到一句话就打断。
vad_mode
- 0:使用本地VAD检测说话开始和结束
- 1:等待ASR反馈说开始和结束(需要ASR支持)
- 2:使用本地VAD检测检测说话开始，等待ASR反馈说话结束。
vad_filter 噪音过滤等级0-1。0.8使用深度神经网络过滤噪音。
asrproxy_addr asr代理地址。
vad_min_active_time_ms 说话时间大于这个值才开始提交ASR。
vad_max_end_silence_time_ms 静音时间大于这个值认为说话停止。
wait_speech_timeout_ms 放音完成后等待用户说话的等待时间。
max_speech_time_ms 最大说话时间，说话时间超过这个值就停止ASR。
hot_word ASR热词。
asr_params ASR私有参数,JOSN格式{\"变量\"=\"名字\"}。例如：{“group”:”default”}，控制asrproxy使用那个asr配置组去识别。
asr_notify_uuid asr识别结果通知uuid
record_mode 录音方式。0:不录音,1:检测到声音开始录音,2:全部录音。
record_template 录音路径模板。如果不是绝对路径，会把这个路径追加到FreeSWITCH的recordings后面。支持变量，比如日期 ${strftime(%Y-%m-%d)}。最后一个录音文件路径会保存到变量 ${cti_asr_last_record_filename}
record_format 录音格式wav或者mp3

ASR识别结果通知

事件类型　SWITCH_EVENT_CUSTOM　cti_asr
事件头

Speech-Notify-UUID　asr_notify_uuid
Speech-Type　
- b:检测到开始说话
- 0:识别结果更新,如果结果是空，表示远端VAD检测到开始说话
- 1:一句话结果 ASR_MODE_MULTI模式才有
- f:远端结束
- F:本段结束
- e:本段错误
- E:远端错误
- t:wait_speech_timeout 超时
- P:放音时的识别结果（打断模式128和256时放音时候说话才触发）
Speech-Time　开始说话时间，linux时间戳（微妙）

事件体识别结果

顶顶通呼叫中心中间件(mod_cti基于FreeSWITCH)-语音识别（asr）接口

启动ASR识别

停止ASR识别

放音的同时执行ASR识别

ASR识别结果通知

中间件

热门文章

最新文章

相关课程

相关电子书