达摩院公布语音AI新进展:移动端也能实现逼近真人的语音交互体验

简介: 9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。

9月18日,在2020云栖大会上,达摩院公布了语音AI技术的最新突破:端上语音识别和语音合成能力首次达到媲美云端的水平,这意味着未来个人用户在移动终端即可轻松体验逼近真人的语音技术。据介绍,达摩院最新的语音技术已在淘宝直播、钉钉会议、高德导航等场景大规模应用,正全面对外开放。

语音AI的核心是让机器听懂人话、并能开口说话,语音合成和语音识别技术是实现这些目标的基础。但由于过去几年业界在语音模型上未能有突破性创新,高精度的语音交互任务长期依赖云端算力,造成了语音指令处理不可避免的延时等问题。

此次达摩院率先在算法模型上实现创新,推出E2E-ASR端到端语音识别技术及全新的端上KAN-TTS语音合成技术,首次在移动终端上实现接近云端的语音识别与合成效果。

据介绍,在语音识别方面,达摩院提出SAN-M网络结构及基于SCAMA的流式端到端语音识别框架,提升计算效率的同时,还将高难度场景中的语音识别错误率降低近三成。达摩院研发的语音识别系统,可纯离线、低成本部署在手机端,原型系统不到40MB,识别效果媲美超过100GB的达摩院上一代DFSMN-CTC云端系统。

继去年发布仿真率可达97%的自研KAN-TTS语音合成模型后,达摩院此次在移动端实现了对语音模型的“大瘦身”,相比云端,端上模型大小压缩了101倍,计算量压缩35倍,通过终端算力即可快速复现逼近真人的语音。例如,高德地图近期发布了利用达摩院全新语音技术合成的李佳琦、林志玲、小团团等明星导航语音包,语音效果较之前更自然,断网状态下语音导航也不会中断。

001.png

达摩院语音实验室负责人鄢志杰表示,“在终端处理语音任务一直是学术界和工业界的难题,达摩院最新的语音技术有效释放了终端设备的能力,让终端也能轻松处理语音任务,我们相信,在终端算力和云端算力的协同支撑下,未来语音交互将无处不在。”

过去几年,阿里语音AI取得了一系列突破。2019年,阿里语音AI入选《麻省理工评论》“全球十大突破性技术”,是唯一上榜的中国科技公司;今年7月IDC发布的《中国AI云服务市场半年度研究报告》显示,阿里语音AI以44%的市场份额,在云上语音AI市场中位居第一。

002.png

原文链接:https://ai.51cto.com/art/202009/626207.htm
本文转载自51CTO,本文一切观点和机器智能技术圈子无关


机器智能技术结尾二维码.png

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
目录
相关文章
|
17天前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
25 2
|
20天前
|
人工智能 自然语言处理 机器人
手把手带你搭建一个语音对话机器人,5分钟定制个人AI小助手(新手入门篇)
本文介绍了如何从零开始搭建一个语音对话机器人,涵盖自动语音识别(ASR)、自然语言处理(NLP)和文本到语音合成(TTS)三大核心模块。通过使用开源工具如FunASR、LLaMA3-8B和ChatTTS,以及FastAPI和Gradio等技术,详细指导读者轻松实现个人AI小助手的构建,适合技术新手快速上手。
143 1
|
2月前
|
人工智能
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
61 1
三文带你轻松上手鸿蒙的AI语音03-文本合成声音
|
2月前
|
存储 人工智能 开发者
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
98 0
三文带你轻松上手鸿蒙的AI语音02-声音文件转文本
|
7月前
|
机器学习/深度学习 自然语言处理 算法
基于深度学习的语音识别技术应用与发展
在当今数字化时代,语音识别技术已经成为人机交互领域的重要组成部分。本文将介绍基于深度学习的语音识别技术在智能助手、智能家居和医疗健康等领域的应用与发展,同时探讨该技术在未来的潜在应用和发展方向。
212 4
|
5月前
|
机器学习/深度学习 自然语言处理 算法
未来语音交互新纪元:FunAudioLLM技术揭秘与深度评测
人类自古以来便致力于研究自身并尝试模仿,早在2000多年前的《列子·汤问》中,便记载了巧匠们创造出能言善舞的类人机器人的传说。
12378 116
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
1月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能语音交互技术:构建未来人机沟通新桥梁####
【10月更文挑战第28天】 本文深入探讨了智能语音交互技术的发展历程、当前主要技术框架、核心算法原理及其在多个领域的应用实例,旨在为读者提供一个关于该技术全面而深入的理解。通过分析其面临的挑战与未来发展趋势,本文还展望了智能语音交互技术如何继续推动人机交互方式的革新,以及它在未来社会中的潜在影响。 ####
70 0
|
1月前
|
机器学习/深度学习 搜索推荐 人机交互
智能语音交互技术的突破与未来展望###
【10月更文挑战第27天】 本文聚焦于智能语音交互技术的最新进展,探讨了其从早期简单命令识别到如今复杂语境理解与多轮对话能力的跨越式发展。通过深入分析当前技术瓶颈、创新解决方案及未来趋势,本文旨在为读者描绘一幅智能语音技术引领人机交互新纪元的蓝图。 ###
65 0
|
4月前
|
人工智能 算法 人机交互
FunAudioLLM技术深度测评:重塑语音交互的未来
在人工智能的浪潮中,语音技术作为人机交互的重要桥梁,正以前所未有的速度发展。近期,FunAudioLLM以其独特的魅力吸引了业界的广泛关注。本文将以SenseVoice大模型为例,深入探索FunAudioLLM在性能、功能及技术先进性方面的表现,并与国际知名语音大模型进行对比分析,同时邀请各位开发者共同参与,为开源项目贡献一份力量。
93 4