阿里全资收购先声互联 前中科院声学大牛付强带队加盟

简介: 近日,阿里对先声互联进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。未来将筹建两个实体声学实验室,随着阿里在芯片上的战略布局,也会在语音专用芯片上有更多进展。

一支曾被媒体称为“扼住了智能音箱咽喉”的研发团队,近日加盟阿里巴巴。

近日,阿里对北京先声互联科技有限公司(以下简称先声互联)进行全资收购,先声互联创始人、中科院声学所前研究员付强博士入职阿里达摩院机器智能技术实验室,负责语音交互前端处理技术和方案的研发。

和付强一同入职的,包括先声互联创始团队的多名资深专家,他们多为付强在中科院的原班人马,其中有一位来自著名的杜比实验室。

付强带队加盟,将成为阿里IoT场景落地的关键一环

先声互联是国内最早从事语音增强、远讲语音交互接口技术的团队,曾为阿里、百度、小米等多家公司提供远讲语音交互软硬件的解决方案。

付强及团队在语音增强等领域创造了多项国内第一,甚至打破了国外的技术垄断。创始人付强拥有二十余年语音信号处理研发经历,在美国OGI等语音研究机构从事过博士后工作,曾牵头完成了国家自然科技基金国家、省部委几十项科研课题,在包括IEEE Trans.在内的国际权威学术刊物上发表论文近百篇,发明专利近二十项,多项成果被相关部委列装。

4月初,阿里宣布全面进军物联网领域。付强带领声学团队加入,将成为阿里IoT场景落地的关键一环

去年下半年,前宝利通首席工程师冯津伟加入阿里,进行上海地铁语音售票机的研发,这是全球首个强嘈杂环境下的语音交互产品。

付强加盟后将整合资源,推动语音识别技术的场景落地,形成软硬结合、端云一体的商用方案。他还将筹建两个实体声学实验室。

4月20日,阿里全资收购大陆唯一的自主嵌入式CPU IP Core公司中天微,很多技术也是面向IoT领域。

“阿里IoT战略必须要做资源可控、技术可控、拥有核心竞争力的事情。”阿里巴巴CTO张建锋说,这也是达摩院组建以来最重要的研究突破方向之一。

去年10月,阿里宣布成立以“达摩院”为名的全球研究院,目前已在全球多点设立科研机构,立足基础科学、颠覆性技术和应用技术研究。

将来会在语音专用芯片上有进展

问:先声互联总计多少技术人员会加盟阿里?团队阵容的介绍?

答:是全资收购,主要是技术、人才的收购。

加盟的技术人员加上我共5人,其中4人是声学所原班人马,也都是在该领域中技术沉淀较久,实际落地经验非常丰富的。

团队核心算法人员包括我之前带的学生和从杜比实验室出来跟我一起创业的。他们的共同特点都是能文能武,既能写出IEEE trans.这样的领域内国际顶级刊物学术文章,又能深入到实际产品研发。对贯彻理论到实践的统一理念,起了重要的作用,也使得我们技术有自己的原创特色,并非跟随。

问:您为什么选择做声学研究这条路线,为什么后来选择创业,为什么选择加入阿里巴巴?

答:做语音处理是硕士起就开始了,至今已有20多年了。那时谈不上选择,就是导师的课题需要做语音就开始做了,那时做语音也并不吃香,虽然有机会转别的方向,不过我喜欢做事做透,就一直做下来了。

“和有情有义的人,一起做有价值的事”,一直是我坚持的原则。有机会去实现自己的理想,自然也就没什么犹豫,选择创业是这样,选择加入阿里更是这样。

问:先声互联此前研究和要解决的核心问题是?

答:语音交互,作为人机交互中最自然的方式,其真正的价值是让人在无限制的场景说话,然而语音交互应用在实际的场合经常会受到背景噪声、非平稳干扰、设备回声、以及房间混响等声学不利因素的影响。可以说,机器听觉的噪声鲁棒性与人的听觉机制比还是不少差距的。

先声互联综合利用了多麦克风空间滤波、语音分离、解混响和声源定位等多项基于物理建模的信号处理技术,并融合了基于机器学习的数据建模机制,甚至是语义层面的信息,为复杂声学条件下的语音交互提供前端处理技术和方案。

问:目前您负责研究的这一技术,在全球行业内的相对位置是怎样的?在这一领域,中国和世界处在同一起跑线吗?我们的相对优势有哪些?

答:国内的相关技术积累并不落后,但缺乏成功的产品带动。

我们在中科院声学所时,团队在前端处理技术环节上就比较成熟了,相比于国外这些产品级的技术并不落后,在信号处理与唤醒和识别等语义层面的信息融合方面还是更进一步的,也暨此落地了不少实际产品,但由于语音交互技术链条很长,在缺乏对端到端交互系统流程把控和优秀的产品设计前提下,一些更好的想法很难体现出来。

相信在阿里这个大平台会有更好的机会发挥价值。

问:目前在机器智能技术实验室,有哪些重点攻克的难题或研发项目可以透露?

答:短期目标是帮助语音交互技术在多种场景和终端上落地,在复杂环境下保持正确的识别率。

从PC时代、移动互联网时代,到物联网时代,对人机自然交互、沉浸式的体验越来越高。这对语音交互前端处理技术的挑战是不同的。如:

d47e62d2b349aca45e42305ed6714efbe5ed61d9 地铁机场等场景:有人流声音、有喇叭音,背景音嘈杂
d47e62d2b349aca45e42305ed6714efbe5ed61d9 家庭场景:噪音没那么复杂,但涉及到混响、回声处理
d47e62d2b349aca45e42305ed6714efbe5ed61d9 车载场景:不远不近、混响小,但涉及到胎噪、风噪等扩散场噪声

在这些场景中,我们都有不同的终端产品已经或即将落地量产,在业界也都引起不小的影响。在这些已有成绩的基础上,我们会在技术深度和方案的可复制性上有更多的布局。

特别地,针对IoT化的智能家居的需求,我们正在研发基于小阵列语音增强技术的低功耗、低成本、高集成的端云一体语音交互技术和硬件方案。随着阿里在芯片上的战略布局,我们也会在语音专用芯片上有更多进展。

问:关于未来,还有哪些计划是可以透露的?

答:我和团队最近在筹建专门用途的声学实验室。

这个声学实验室主要目的是用于复杂声学环境下的语音交互系统在线端到端测试。

有别于现有的远讲语音交互测试认证方法,它的主要特色是基于多扬声器系统声场重建的原理在局部区域内建立真实的声场,也就是说家庭、车载和户外等场景的声场条件,使得待测终端在实验室内就能置于近似真实的声场中。在此基础上,更重要的是建立自动化的,包括前端信号处理能力、唤醒率、识别率乃至对话成功率的,全链路端到端测试系统和流程。该实验室的建设和系统搭建,将会大大提升阿里对语音交互IoT终端设备赋能效率和产品质量。

问:目前我们机器“听清”的能力,和人相比在一个怎么的水平?机器的耳朵会比人更灵敏吗?

答:现在实际的语音交互系统,尤其在远讲条件下,与人类的听觉机制相比还是有不小的差距的,主要表现在极低信噪比和多人说话(所谓的鸡尾酒会问题)的情况。

随着多模态融合和深度神经网络建模技术的进展,这些问题会有更好的解决方案,阿里在这方面的技术布局也早就开始了。


原文发布时间为:2018-05-3

本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”。

原文链接:阿里全资收购先声互联 前中科院声学大牛付强带队加盟

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
安全 网络协议 Unix
网络安全产品之认识安全隔离网闸
随着互联网的发展,网络攻击和病毒传播的方式越来越复杂,对网络安全的要求也越来越高。传统的防火墙设备在面对一些高级的网络攻击时,往往难以做到全面的防护,因此需要一种更加有效的网络安全设备来提高网络的安全性。此外,随着信息技术的不断发展,各个行业对信息系统的依赖程度也越来越高,一旦信息系统遭受攻击或入侵,可能会导致数据泄露、系统瘫痪等严重后果。因此,对于一些高安全级别的网络环境,如政府、军队、公安、银行等,需要一种更加可靠的安全设备来保证网络的安全性。在这样的背景下,安全隔离网闸作为一种新型的网络安全设备应运而生。本文让我们一起来认识安全隔离网闸。
1583 0
|
计算机视觉 Windows
Qt实用技巧:实现窗口透明的五种方法
Qt实用技巧:实现窗口透明的五种方法
Qt实用技巧:实现窗口透明的五种方法
|
4月前
|
SQL 人工智能 自然语言处理
RDSAI-CLI - 用AI重塑数据库终端CLI体验
阿里云RDS团队推出AI原生命令行工具RDSAI-CLI,融合大语言模型与传统CLI优势,支持自然语言交互、智能SQL生成、性能诊断与优化建议,实现“意图式操作”,让数据库真正“听懂人话”。现已开源,助力开发者高效管理数据库。
|
人工智能 算法 机器人
语音识别接口 - ASR性能指标WER/SER
做人工智能测试,准确一点,做语音聊天机器人、智能音箱等测试,一定会接触到语音误别即ASR (Automatic Speech Recognition)。本篇主要讲ASR的几个最重要的指标字错率、句错率。
2790 0
|
人工智能 前端开发 JavaScript
打造了一个未来感十足的图书管理 App 个人页面
打造了一个未来感十足的图书管理 App 个人页面
373 25
|
数据管理 数据库管理 Python
CALIPSO激光雷达1B级剖面数据 - CAL_LID_L1-Standard-V4-10
CALIPSO Lidar Level 1B 剖面数据(V4-10)是云-气溶胶激光雷达和红外探路者卫星观测任务的核心产品,基于 CALIOP 仪器收集的偏振激光雷达数据。该数据集提供经过校准与地理定位的半轨道激光雷达剖面信息,涵盖昼夜观测,广泛应用于研究云层、气溶胶对地球辐射收支及气候的影响。数据自 2006 年起持续更新,适用于科学研究与期刊发表。NASA 提供公开访问支持,助力全球地球科学领域探索。
320 0
|
机器学习/深度学习 人工智能 自然语言处理
前端大模型入门(三):编码(Tokenizer)和嵌入(Embedding)解析 - llm的输入
本文介绍了大规模语言模型(LLM)中的两个核心概念:Tokenizer和Embedding。Tokenizer将文本转换为模型可处理的数字ID,而Embedding则将这些ID转化为能捕捉语义关系的稠密向量。文章通过具体示例和代码展示了两者的实现方法,帮助读者理解其基本原理和应用场景。
5610 1
|
SQL 缓存 开发框架
Entity Framework Plus: 让 EF Core 开发如虎添翼
Entity Framework Plus: 让 EF Core 开发如虎添翼
332 0
|
机器学习/深度学习
YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
952 0
|
机器学习/深度学习 存储 算法
python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势
python实现基于长短期记忆网络LSTM模型预测茅台股票价格趋势
1130 0

热门文章

最新文章