阿里全资收购先声互联 前中科院声学大牛付强带队加盟

简介: 近日,阿里对先声互联进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。未来将筹建两个实体声学实验室,随着阿里在芯片上的战略布局,也会在语音专用芯片上有更多进展。

一支曾被媒体称为“扼住了智能音箱咽喉”的研发团队,近日加盟阿里巴巴。

近日,阿里对北京先声互联科技有限公司(以下简称先声互联)进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。

和付强一同入职的,包括先声互联创始团队的多名资深专家,他们多为付强在中科院的原班人马,其中有一位来自著名的杜比实验室。

付强带队加盟,将成为阿里IoT场景落地的关键一环

先声互联是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。

付强及团队在语音增强等领域创造了多项国内第一,甚至打破了国外的技术垄断。创始人付强拥有二十余年语音信号处理研发经历,在美国OGI等语音研究机构从事过博士后工作,曾牵头完成了国家自然科技基金国家、省部委几十项科研课题,在包括IEEE Trans.在内的国际权威学术刊物上发表论文近百篇,发明专利近二十项,多项成果被相关部委列装。

4月初,阿里宣布全面进军物联网领域。付强带领声学团队加入,将成为阿里IoT场景落地的关键一环

去年下半年,前宝利通首席工程师冯津伟加入阿里,进行上海地铁语音售票机的研发,这是全球首个强嘈杂环境下的语音交互产品。

付强加盟后将整合资源,推动语音识别技术的场景落地,形成软硬结合、端云一体的商用方案。他还将筹建两个实体声学实验室。

4月20日,阿里全资收购大陆唯一的自主嵌入式CPU IP Core公司中天微,很多技术也是面向IoT领域。

“阿里IoT战略必须要做资源可控、技术可控、拥有核心竞争力的事情。”阿里巴巴CTO张建锋说,这也是达摩院组建以来最重要的研究突破方向之一。

去年10月,阿里宣布成立以“达摩院”为名的全球研究院,目前已在全球多点设立科研机构,立足基础科学、颠覆性技术和应用技术研究。

将来会在语音专用芯片上有进展

问:先声互联总计多少技术人员会加盟阿里?团队阵容的介绍?

答:是全资收购,主要是技术、人才的收购。

加盟的技术人员加上我共5人,其中4人是声学所原班人马,也都是在该领域中技术沉淀较久,实际落地经验非常丰富的。

团队核心算法人员包括我之前带的学生和从杜比实验室出来跟我一起创业的。他们的共同特点都是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发。对贯彻理论到实践的统一理念,起了重要的作用,也使得我们技术有自己的原创特色,并非跟随。

问:您为什么选择做声学研究这条路线,为什么后来选择创业,为什么选择加入阿里巴巴?

答:做语音处理是硕士起就开始了,至今已有20多年了。那时谈不上选择,就是导师的课题需要做语音就开始做了,那时做语音也并不吃香,虽然有机会转别的方向,不过我喜欢做事做透,就一直做下来了。

“和有情有义的人,一起做有价值的事”,一直是我坚持的原则。有机会去实现自己的理想,自然也就没什么犹豫,选择创业是这样,选择加入阿里更是这样。

问:先声互联此前研究和要解决的核心问题是?

答:语音交互,作为人机交互中最自然的方式,其真正的价值是让人在无限制的场景说话,然而语音交互应用在实际的场合经常会受到背景噪声、非平稳干扰、设备回声、以及房间混响等声学不利因素的影响。可以说,机器听觉的噪声鲁棒性与人的听觉机制比还是不少差距的。

先声互联综合利用了多麦克风空间滤波、语音分离、解混响和声源定位等多项基于物理建模的信号处理技术,并融合了基于机器学习的数据建模机制,甚至是语义层面的信息,为复杂声学条件下的语音交互提供前端处理技术和方案。

问:目前您负责研究的这一技术,在全球行业内的相对位置是怎样的?在这一领域,中国和世界处在同一起跑线吗?我们的相对优势有哪些?

答:国内的相关技术积累并不落后,但缺乏成功的产品带动。

我们在中科院声学所时,团队在前端处理技术环节上就比较成熟了,相比于国外这些产品级的技术并不落后,在信号处理与唤醒和识别等语义层面的信息融合方面还是更进一步的,也暨此落地了不少实际产品,但由于语音交互技术链条很长,在缺乏对端到端交互系统流程把控和优秀的产品设计前提下,一些更好的想法很难体现出来。

相信在阿里这个大平台会有更好的机会发挥价值。

问:目前在机器智能技术实验室,有哪些重点攻克的难题或研发项目可以透露?

答:短期目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。

从PC时代、移动互联网时代,到物联网时代,对人机自然交互、沉浸式的体验越来越高。这对语音交互前端处理技术的挑战是不同的。如:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂
d47e62d2b349aca45e42305ed6714efbe5ed61d9 家庭场景:噪音没那么复杂,但涉及到混响、回声处理
d47e62d2b349aca45e42305ed6714efbe5ed61d9 车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声

在这些场景中,我们都有不同的终端产品已经或即将落地量产,在业界也都引起不小的影响。在这些已有成绩的基础上,我们会在技术深度和方案的可复制性上有更多的布局。

特别地,针对IoT化的智能家居的需求,我们正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。随着阿里在芯片上的战略布局,我们也会在语音专用芯片上有更多进展。

问:关于未来,还有哪些计划是可以透露的?

答:我和团队最近在筹建专门用途的声学实验室。

这个声学实验室主要目的是用于复杂声学环境下的语音交互系统在线端到端测试。

有别于现有的远讲语音交互测试认证方法,它的主要特色是基于多扬声器系统声场重建的原理在局部区域内建立真实的声场,也就是说家庭、车载和户外等场景的声场条件,使得待测终端在实验室内就能置于近似真实的声场中。在此基础上,更重要的是建立自动化的,包括前端信号处理能力、唤醒率、识别率乃至对话成功率的,全链路端到端测试系统和流程。该实验室的建设和系统搭建,将会大大提升阿里对语音交互IoT终端设备赋能效率和产品质量。

问:目前我们机器“听清”的能力,和人相比在一个怎么的水平?机器的耳朵会比人更灵敏吗?

答:现在实际的语音交互系统,尤其在远讲条件下,与人类的听觉机制相比还是有不小的差距的,主要表现在极低信噪比和多人说话(所谓的鸡尾酒会问题)的情况。

随着多模态融合和深度神经网络建模技术的进展,这些问题会有更好的解决方案,阿里在这方面的技术布局也早就开始了。


原文发布时间为:2018-05-3

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:阿里全资收购先声互联 前中科院声学大牛付强带队加盟

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
9月前
|
人工智能 前端开发 JavaScript
打造了一个未来感十足的图书管理 App 个人页面
打造了一个未来感十足的图书管理 App 个人页面
263 25
|
10月前
|
人工智能 自然语言处理 API
AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题
香港大学推出的AutoAgent框架通过自然语言交互实现零代码创建AI智能体,支持多模型接入与自动化工作流编排,在GAIA基准测试中表现优异。
1418 16
AutoAgent:无需编程!接入DeepSeek用自然语言创建和部署AI智能体!港大开源框架让AI智能体开发变成填空题
|
10月前
|
数据管理 数据库管理 Python
CALIPSO激光雷达1B级剖面数据 - CAL_LID_L1-Standard-V4-10
CALIPSO Lidar Level 1B 剖面数据(V4-10)是云-气溶胶激光雷达和红外探路者卫星观测任务的核心产品,基于 CALIOP 仪器收集的偏振激光雷达数据。该数据集提供经过校准与地理定位的半轨道激光雷达剖面信息,涵盖昼夜观测,广泛应用于研究云层、气溶胶对地球辐射收支及气候的影响。数据自 2006 年起持续更新,适用于科学研究与期刊发表。NASA 提供公开访问支持,助力全球地球科学领域探索。
248 0
|
机器学习/深度学习 数据采集 运维
机器学习在运维中的实时分析应用:新时代的智能运维
机器学习在运维中的实时分析应用:新时代的智能运维
386 12
|
机器学习/深度学习 数据采集 算法
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
Python实现SSA智能麻雀搜索算法优化支持向量机回归模型(SVR算法)项目实战
|
人工智能 算法 测试技术
论文介绍:进化算法优化模型融合策略
【5月更文挑战第3天】《进化算法优化模型融合策略》论文提出使用进化算法自动化创建和优化大型语言模型,通过模型融合提升性能并减少资源消耗。实验显示,这种方法在多种基准测试中取得先进性能,尤其在无特定任务训练情况下仍能超越参数更多模型。同时,该技术成功应用于创建具有文化意识的日语视觉-语言模型。然而,模型融合可能产生逻辑不连贯响应和准确性问题,未来工作将聚焦于图像扩散模型、自动源模型选择及生成自我改进的模型群体。[论文链接: https://arxiv.org/pdf/2403.13187.pdf]
431 1
|
SQL 缓存 开发框架
Entity Framework Plus: 让 EF Core 开发如虎添翼
Entity Framework Plus: 让 EF Core 开发如虎添翼
273 0
|
机器学习/深度学习
YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
859 0
|
机器学习/深度学习 存储 算法
python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势
python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势
971 0
|
存储 缓存 网络虚拟化
网络互联设备(集线器、交换机、路由器)
网络互连设备用于将网络的各个部件连接到一起,从连接性质的不同可分为两种: 物理上的互连能力:指所支持的物理接口,能连接的物理介质类型 协议上的互连能力:指工作在不同协议类型的网络之间,实现不同协议数据包的转换。

热门文章

最新文章