阿里发布AliGenie2.0系统，“百箱大战”用上视觉武器-阿里云开发者社区

阿里发布AliGenie2.0系统，“百箱大战”用上视觉武器

2018-03-23 4432

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

天猫精灵X1的升级版X2没有预期出现，而人机交互系统AliGenie升级到最新的2.0版本，功能强大。

3月22日，阿里巴巴人工智能实验室总经理浅雪（陈丽娟）发布AliGenie2.0系统，它最大的改进是在1.0的基础上增加了视觉能力，并引入多模态交互能力，只需要另外增加一些辅助设备，就能让天猫精灵具备视觉能力。同时，浅雪还宣布，天猫精灵销量已经超过200万台。

四年前，亚马逊推出Echo，将AI音箱大战引发；去年，亚马逊又推出带屏幕的音箱Echo Show，音箱视觉化、屏幕化成为一种趋势。除了AliGenie2.0外，京东叮咚Play以及百度即将发布的“小度在家”都具备视觉能力，AI音箱终于要拼视觉了。

AliGenie2.0：增加图像识别、物体检测、人脸识别能力

去年5月，阿里人工智能实验室（AI Labs）发布天猫精灵X1，内置AliGenie1.0系统。

AliGenie1.0已经建立了超强的知识体系，在这个知识体系当中拥有1个亿的实体理解能力，构建了近10亿的关系。同时AliGenie1.0算法也在升级，阿里AI Labs发布了一个全新的序列标注模型，这个序列标注模型能解决有自动纠错的能力，可以帮助语音理解有更强的容错性。AliGenie还具备主动学习能力，每一次跟用户的交互过程当中，系统都会自动完善。

浅雪发布的AliGenie2.0系统，是在1.0的基础上形成具备视觉、语音等多模态交互能力的新一代的人机交流系统。它不仅会具备听觉能力，还有视觉能力和情感反馈能力。

其中，视觉能力中又分为图像识别、人脸识别、物体检测三大技术。

e59071efed5b5b0cf4ea5e8f30bc877f2dc78665

同时，阿里AI Labs还把语音能力和视觉能力进行了融合，形成多模态交互的过程，从而构建一个更聪明的人机交流系统。

浅雪认为，人机交互远远不仅语音，“我们觉得在未来人机交互不仅有听觉，还有视觉、嗅觉，以及有更强的情感反馈能力。”

阿里AI Labs去年在自然语言理解等方向投入诸多，并在去年10月宣布引入微软亚洲研究院首席研究员聂再清博士、谷歌 Tango 和 DayDream 项目技术主管李名杨博士。目前聂再清负责阿里AI Labs北京研发中心的各项研发工作，并重点突破知识图谱和自然语言理解这两个领域。李名杨任 AI Labs 机器视觉杰出科学家。

9a7dadc93b2dda0e8da0eb3c1f3786a480402f50

阿里AI Labs北京研发中心负责人聂再清

在接受专访时，聂再清表示，天猫精灵具备情景感知、主动学习能力。自然语言理解很大的难点是因为自然语言的多样性，一句话可能有无数的意思，这就需要通过大数据，让开发人员跟大数据的交互主动进行挖掘，主动找到路径让开发人员跟用户一起交互，把语言的各种意思都完善了，才能让机器听懂，这也是阿里AI Labs 技术上的优势。

阿里AI Labs做硬件的逻辑：亲手打造更懂跨界，AliGenie系统将来或开放

虽然天猫精灵X2没有发布，但更小巧尺寸的天猫精灵曲奇、天猫路由器、天猫魔屏 S1 无屏电视以及周边配件等诸多硬件同时亮相。

7c30bd12d2800b36971c4f188b46207f6912d1cf

623fcf1414fb7ac0760d3483bc1a6c3edcf87e13

阿里最擅长做平台，这次一口气发布多款硬件产品，并非要转变路线，其背后的逻辑非常现实：做硬件比软件难的多。

浅雪说，阿里AI Labs在做天猫精灵之前，就已经尝试跟行业的一些合作伙伴共同研发硬件，但在合作过程中碰到了非常多的挑战，毕竟软硬件这两个不同领域跨界合作，相互之间并不清楚里面存在的问题。

一般来说，如果自己只做服务、系统，交给第三方做硬件的话，不容易掌握品控、制造周期等环节，这也是AI Labs去年自己着手打造硬件的原因。

不过，阿里做平台的基因没有变。浅雪希望AliGenie这个系统将来做的更好，让硬件的合作伙伴可以做（相关产品），应用AliGenie这套技术。

013bcdd9481dd72ab5fd3a82804a56f68c79321b

此外，浅雪还宣布，现在天猫精灵的销量已经突破200万台。

百箱大战继续升级：增加视觉能力，实现更多场景

2014年亚马逊的Echo问世，点燃了AI音箱大战的导火索，谷歌Home、苹果的Home Pod以及国内的阿里天猫精灵、小米的小爱同学、猎豹AI音箱等纷纷入场；去年亚马逊发布带屏幕的音箱Echo Show，将AI音箱带入另一个竞争阶段：视觉化。

虽然这次天猫精灵并没有推出带屏幕的音箱，但AliGenie 2.0将视觉能力落地，推出了“精灵火眼”：外置一台XHolder（类似手机支架），放置装有天猫精灵手机APP的手机后，能够让天猫精灵具备视觉认知能力。

79b6e11ff56b3d3a078baf97e7e00768046647f6

这种做法类似当年谷歌在推出VR产品时，外设的Google Cardboard，能够在实现视觉功能的同时，最大限度节省成本。

但“友商”们更激进。在今年CES上，京东智能音箱叮咚Play亮相，这款产品配备了8英寸的液晶显示屏，能够实现视频通话、人脸识别等功能。百度近日也宣布，将在下周发布“小度在家”智能视频音箱。

进入2018年，视觉化、屏幕化让“百箱大战”进入到新的竞争阶段。与单纯的语音音箱而言，加入了视觉功能的音箱能够实现更多场景。以“精灵火眼”为例，阿里与出版业合作，通过图像识别书本后，“精灵火眼”能够实现智能语音互动、声音朗读，帮助儿童读书、识字，商业化空间巨大。

原文发布时间为：2018-03-23

本文作者：张乾

本文来自云栖社区合作伙伴新智元，了解相关信息可以关注“AI_era”微信公众号

原文链接：阿里发布AliGenie2.0系统，“百箱大战”用上视觉武器

阿里发布AliGenie2.0系统，“百箱大战”用上视觉武器

新智元

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里发布AliGenie2.0系统，“百箱大战”用上视觉武器

新智元

热门文章

最新文章

相关电子书