智能语音交互

首页 标签 智能语音交互
# 智能语音交互 #
关注
2382内容
将人工智能融入多媒体 助力视频产业加速——阿里云视频AI全能力解读
结合人工智能视频理解流程和用户的需求场景,我们将视频AI的功能分成四个大部分,视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等,利用识别能力将网络上没营养和不健康的视频内容进行排查和处理;视频理解功能包括视频分类、标签,人物识别、语音识别,同时也包括对视频中的文字进行识别(OCR);视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成,同时支持新闻拆条;关于视频版权,支持视频相似性、同源视频检索和音视频指纹等功能。
语音唤醒技术:small-footprint keyword spotting
目前市场上推出了各式各样的音箱、机器人、车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。iDST资深语音算法工程师陈梦喆将介绍语音唤醒技术的基础知识,基本技术架构以及国内外最新研究成果。
【83行代码获奖代码】高中生@青藤木子 耗费一周给妈妈编写了一款语音识别APP
代码源于生活,高于生活,谢谢你告诉我们技术除了改变世界,还能温暖小家庭,温暖一位母亲。
| |
来自: 物联网
基于AliOS Things玩转智能语音
随着AI技术的进步,智能语音开始将人机交互从手+眼睛的传统模式中解放出来。带给人们更便捷、更风趣、更有人情味的体验,让被操作对象变得不再只是一个死板的工具,而更像是一个有生命的助理。“帮我打开空调”,“明天上班需要带伞吗”,“快递到哪了”…在万物互联的时代,你的所有需求只需要一句话便能实现。
INTERSPEECH 2017系列 | 语音唤醒技术
目前市场上推出了各式各样的音箱,机器人,车载等语音交互产品,语音识别是交互的入口,而语音唤醒成为了踏进这一入口的第一步,如何高效、准确地对用户指令给出反应成为这一技术的最重要目标。本主题将介绍语音唤醒技术的基础知识,基本技术架构以及INTERSPEECH2017上的最新研究成果。
语音识别(ASR)基础介绍第二篇——万金油特征MFCC
上一章提到了整个发声与拾音及存储的原理。但是在了解ASR的过程中,发现基本上遇到的资料都避不开MFCC特征。   整个ASR的处理流程大致可以分为下图: 左侧是经典的处理流程,右侧是近期流行的流程。发生的变化是,将语言模型以下的部分变成端到端的了。 我们将语言模型以下的部分统一看成是声学模型就好。  而MFCC主要用在左侧的处理流程中,即“特征处
阿里巴巴跨物理界招人,世界级音频专家冯津伟入职人工智能团队iDST
11月30日阿里巴巴正式宣布,前Polycom(宝利通)声学设计和信号处理首席工程师(Principal Engineer)冯津伟入职人工智能核心团队iDST,担任智能语音交互团队研究员,将负责语音交互设备端的声学设计和信号处理研究工作。
免费试用