数智洞察丨当AI拥有“一双慧耳”和“巧舌”

简介: 编者按:人工智能技术快速发展,也改变了我们与机器互动的方式。智能语音等应用既加速了产品体验升级,也迎来了非常好的发展和极大的市场空间。中国的智能语音市场规模保持着稳步扩张的态势,成为未来发展的必然趋势。


导语

鄢志杰长期从事语音交互智能的研究、产品化和商业化工作,在他看来,虽然现在语音技术在持续进步,但是离解锁下一个关键场景还有很长的距离——技术发展的斜率还不够陡峭。2003 年进入中科大语音实验室攻读博士时,鄢志杰已经笃定彼时尚未成为主流的语音行业以后必成大势。博士毕业后他进入微软亚洲研究院,曾任语音团队主管研究员,2015年加入阿里巴巴集团。同时,他还是IEEE高级会员,长期担任语音领域顶级学术会议及期刊专家评审。

深耕语音行业十八年来,鄢志杰长期从事语音交互智 能的研究、产品化和商业化工作,在语音识别、语音合成、语音交互等多个领域展开深入研究并成果斐然, 其研究成果被转化并应用于阿里巴巴集团、蚂蚁金服及微软公司多项语音相关产品中。

01

语音交互的定义

鄢志杰通常会用比喻的方式:其实AI很多研究方向,都是和人的感知相关。如果说计算机视觉对应的是眼睛,他做的就是耳朵和嘴——耳朵是语音识别,把语音转成文字,嘴就是语音合成,把文字转成语音。


鄢志杰回忆起一个令他意外的应用场景,在他研究生阶段开始学这个技术的时候,没想到今天在限定领域的语音交互的自然度,能够达到这么高的水平。比如说用户会接到天猫超市打来的电话,说马上要配送了,问在不在家里,送到门口还是送到物业?其实这都是 AI 打的电话,但很多人并没有感觉到不同。当然这还只是在一个非常特定的领域,其他更广泛的领域里现在技术还做不到这么自然的程度。

02

技术的限制与障碍

语音交互领域目前还存在很多技术的限制,比如在语音识别方面,还是停留在各种场景下更普适的语音识别准确率。当年IBM 的ViaVoice,要带一个耳麦讲话,现在手机可以在稍远距离准确识别,智能音箱又可以做到更大距离。但这些的前提是,在家里边不会有太多的噪声,而且这些场景都是单人的,都是跟机器去完成一个单独的任务——要么是听写,要么是想点一首歌。但如果加了很多别的因素,准确率就会逐渐下降,比如说噪音、口音、多人,甚至不是要完成一个任务而是多人闲聊甚至争吵,还有语音之间的互相覆盖等等。


语音合成也一样,现在AI读一个句子、甚至一段话基本上可以以假乱真, 但是读一个篇章以后,例如小说,就会发现AI说话没有感情的起伏,是千篇一律的。


鄢志杰认为对于技术的障碍既包含算法层面也包含硬件层面。前文提到在一个真实环境下对人与人交流进行拾音就是采集的问题,这些就很基础,甚至涉及麦克风本身,在这些信号采集之上的信号处理、降噪增强算法问题也不少。


拾音后,如何处理多人同时讲话,比如两个人在争吵,怎么做到这种场景下有效的语音分离,不仅辨识出说话的内容,还要识别出说话人的身份, 这些技术都是上层的,算法也会涉及。

03

如何跨越平台期

第一个因素是移动互联网,表面上看起来没有关系,其实关系很大。因为移动互联网带来一个巨大的好处,就是获取合法合规的数据越来越容易。在鄢志杰刚学技术的时候,积累语音素材要请人到录音棚里对着麦克风录音,这样做的问题首先是不真实,因为是在录音棚,第二是覆盖的人数很有限——能雇到几百人就很多了。


第二个因素是深度学习,除了算法以外,还有数据和算力。鄢志杰觉得最终是应用的推动。今天用户能够通过手机、音箱去获得互联网上的内容,有一些可以给C端用户用起来的东西,促进了技术的良性循环发展。


第三个是“开源”,这也是推动技术发展的重要力量。开源带来一个问题,就是现在很多新一代研究者很容易通过开源站到一定的高度上去,但这带来的也许是个副作用——当初应该练的那些“童子功”可能就直接跳过了,研究者有可能不知道那个东西是怎么来的。



其实任何一个算法应用都有一个核心(Core),但现在少有人去做了,大家都在上面去不停地去包装——少有人去做巨人,但大家都愿意站在巨人的肩膀上。


还有一些老的研究方向,也许它的理论有更漂亮的地方,但是因为在现阶段确实不如神经网络的这一套理论流行、应用效果更好,可能就会被慢慢遗忘,“武林秘籍”可能就失传了。虽然不确定最终结果会怎么样,但回看过去,在深度学习火起来之前,神经网络的研究也经历过类似阶段,那个时候是其他的统计建模框架明显好于神经网络,那个时候写神经网络的论文不少都会被拒。

04

智能语音领域的进步

鄢志杰认为深度学习就是最了不起的进步。如果从2010年左右语音和深度学习结合的那一波技术爆发开始看,最近几年可能算是平台期,但严格地说,从技术上讲,过去的十年是少有的、持续进步的十年。


以前技术都是阶跃性的进步,或者叫脉冲式的进步,差不多一个脉冲以后又要沉寂10年左右的时间。但近10年来确实是持续在进步的,虽然都在深度学习的大框架下,但是基本上两三年会有一个大的模型升级。



现在的平台期被鄢志杰形容为:虽然技术发展持续上升了10年,但是离我们解锁下一个关键场景还有很长的距离。也就是说,技术发展的斜率还不够陡峭。

05

如何定义在阿里巴巴的工作状态

鄢志杰表示自己是在探索高技术如何产生高价值的路径。世界上有很多是单纯的高价值的事情,比如有人开玩笑说小龙虾产业的规模曾经很长一段时间都是超过云计算的。同样,世界上也有很多纯的高技术,包括很多基础性的技术,例如数学研究。


鄢志杰认为达摩院的定位是要找到同时满足这两个条件的事情,这是第一个难点。第二个难点是在一个中国的高科技公司做这件事情,这是一种绝无仅有的体验。达摩院跟传统意义上西方高科技公司做研究院不一样,跟政府资助的大学和科研院所又不一样,所有这些事情是没有人干过的。

06

达摩院体系评价

鄢志杰比较满意的地方是在语音品类上。通过自己做研究,再做内部的应用来构建完善这些技术,然后再把这些技术变成产品放到阿里云上,对外输出给别的行业。鄢志杰将这部分叫做“中场”,也是他比较满意的部分。



为什么叫“中场”,这是鄢志杰的一个“前中后场”的理论,与足球有关。足球有个最大的特点:射门10次可能只进一次,这是和篮球很大的不同。这就像极了真正探索性的研究,就是说可能要承受90%的失败,然后有一次能够成功。这被比喻为“前场”,真正的探索式的创新出现在前场,通过不断保持冲击,孕育好多颗种子,最终少数一些种子能够长出来。


而“中场”就是保持这样的冲击力的基础,创新不可能突然出现,孕育种子就得有土壤。最简单的例子是,当有一个创新想法的时候,到底是三缺一的去干,还是一缺三的去干,这是个很重要的问题。


当一缺三的时候,基本上这个创新很难有效的发生;而三缺一的时候,项目就有点希望,这里“三”就来源于中场的积累,比如今天我们要去做一个产品,发现要用到语音的某一个技术、视觉的某一个技术,而达摩院在“中场”已经有很成熟的一些积累,马上就可以为我所用,这个时候就能站在他们的肩膀上做相应的事情。



“后场”就是真正的发动机,在达摩院里就是比较偏纯研究的团队,研究的探索性风险极高,“中场”也要保护“后场”,使“后场”能有一个稳定良好的环境去长期投入研究。而对于“中场”的人的要求,鄢志杰举例道:AI平台类的东西,主要就是由“中场”的人来做的,它本质上就是把AI的能力变成所有人可以“开箱即用”的一种能力,然后帮助别人去做他们的事情。比如,有人就拿着达摩院人脸识别的技术去做考勤机,有人拿着达摩院语音的技术去做客服系统等等。


鄢志杰现在精力主要投入在“如何让大家有效地形成一个体系”这件事上,研究反而变成兴趣了,但他依然特别享受跟“后场”的同学在一起讨论的时间。


作者:《云栖战略参考》第二期

编辑:阿里云研究院内容运营主管 赵子千

文章部分图片资源来源于网络

如有版权问题请联系编辑删除


相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
95 2
|
2月前
|
人工智能
AI洞察-202410
### 监管动态 ### AI动态
|
3月前
|
人工智能 安全 网络安全
AI洞察-202409
Gartner报告显示,AI与生成式AI技术的发展预计将使2025年全球信息安全投资增长15%,主要体现在应用安全、数据安全及基础设施保护等领域。此外,2024年调查显示,58%的金融企业已采用AI技术,显著高于2023年的37%,且这一趋势持续上升。[来源:Gartner]
|
4月前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
215 5
|
4月前
|
人工智能 数据处理 Python
🔍数据侦探的AI助手:Prompt技巧大公开,洞察商业先机不手软
【8月更文挑战第1天】在数据驱动时代,AI助手作为数据侦探的强大伙伴,通过精心设计的AI Prompt技巧帮助解析复杂市场。案例中,一电商平台欲进入新兴市场,面临数据挑战。初始Prompt聚焦消费者偏好及影响因素分析。为进一步深化洞察,Prompt加入节假日购物模式、商品类别偏好及社交媒体影响等细节。结合领域知识,优化Prompt关注价格敏感度与定制化营销策略。最终,AI助手生成的报告揭示了消费者行为模式,并提出市场策略建议,助力电商成功布局新兴市场。此过程展示了AI Prompt在商业洞察中的关键作用,预示着其在未来洞察之旅中的广阔前景。
68 2
|
7月前
|
人工智能 搜索推荐 大数据
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
【视频】如何用人工智能AI、大数据打动消费者洞察PPT|报告分享
|
人工智能 算法 Cloud Native
独家发布 | 阿里洞察:AI 还香吗?《中国企业2020》系列报告第二季免费下载
人工智能正在降温?AI企业盈利仍很困难?2020 年最具产业价值的 AI 领域又有哪些?身在产业中的你如果也有这些疑问,那么这本《人工智能红利渗透与爆发》或许能解答你的疑惑。阿里云研究中心联合埃森哲 ——《中国企业2020》系列报告再出新视野,带你了解人工智能正在发生的科技浪潮。
18163 0
独家发布 | 阿里洞察:AI 还香吗?《中国企业2020》系列报告第二季免费下载
|
机器学习/深度学习 人工智能 自然语言处理
体育分析技术进行时:凭借AI洞察与数据故事不断发展
各类企业正利用持续增长的数据总量巩固自身优势,同时着力开发技术方案,希望在市场对抗中占据领先。
|
16天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗诊断中的应用及前景展望
本文旨在探讨人工智能(AI)技术在医疗诊断领域的应用现状、挑战与未来发展趋势。通过分析AI技术如何助力提高诊断准确率、缩短诊断时间以及降低医疗成本,揭示了其在现代医疗体系中的重要价值。同时,文章也指出了当前AI医疗面临的数据隐私、算法透明度等挑战,并对未来的发展方向进行了展望。
|
24天前
|
机器学习/深度学习 人工智能 自然语言处理
当前AI大模型在软件开发中的创新应用与挑战
2024年,AI大模型在软件开发领域的应用正重塑传统流程,从自动化编码、智能协作到代码审查和测试,显著提升了开发效率和代码质量。然而,技术挑战、伦理安全及模型可解释性等问题仍需解决。未来,AI将继续推动软件开发向更高效、智能化方向发展。