透过天猫精灵看阿里AI

简介: 透过天猫精灵看阿里AI

自从有了孩子,我就开始渐渐对玩具产生了兴趣,你懂的……

但是,什么费雪啊,托马斯和朋友啊,还有乐高什么的,经常在家里遍地都是。

image.png

每次也喊儿子自己收拾玩具,但每天睡觉之前要做好这一点,确实有难度。过不了几天,我只好自己帮他收拾,还得分门别类,否则下次就找不到了。真是痛苦啊!

这时候我就想,什么时候玩具能变成智能的就好了,找不到玩具的时候,你一喊,它自己就跑出来了;玩具该回家的时候,你一喊,它就自己跑回去了——这多省心省力!

这样的愿望好像是痴人说梦,直到……两天前阿里宣布了一件事情……

智能语音到底能干啥?


没错,两天前也就是7月5日,阿里人工智能实验室发布了一款智能语音终端设备——天猫精灵X1;同时还公布了首个硬件开放合作伙伴——国际玩具巨头美泰,而美泰正是费雪、芭比、托马斯和朋友这些大名鼎鼎的玩具品牌的母公司。这两家巨头联手合作探索智能玩具,我第一反应就是之前所有有关收拾玩具的问题,都会迎刃而解!

当然,天猫精灵X1目前为止已经具备的能力已经很强了,比如音乐音频内容的播放、听故事、讲笑话、查运势、玩游戏、查天气、找手机、问百科、设闹钟/定时器、查食物热量、充话费、查快递、查价格、天猫魔盒控制、天猫超市购物、智能家电操控等等。

这其中,比如查价格、玩游戏,都不仅仅是接受语音指令而已,里面暗含了许多逻辑判断等人工智能的成分,因为同样是查价格、玩游戏,每个人的结果可能都不一样,都带有自身的喜好色彩——这就是我所理解的人工智能。

与之类似的还有我刚才举例的收拾玩具的场景,每个人收拾的方法可能也有所不同,而这些,都应该高于语音和语意识别的范畴。

当然从硬件终端来说,天猫精灵X1的改进空间是一方面,而更深层次,显然是天猫精灵X1背后的东西——阿里云计算和阿里的人工智能技术。

image.png

从AliGenie看不同


其实,整场天猫精灵X1的发布会上,有两件事情引起了我的高度关注——第一件是阿里人工智能研究室与国际玩具巨头美泰达成战略合作;而第二件就是天猫精灵X1背后的AliGenie。

众所周知,今天的语音识别与25年前IBM做语音识别完全不同——那时候IBM是做单机训练,换个人甚至同一个人换个语调就不一定能识别出来,而今天的语音识别是通过4G网络把语音返回到云数据中心中,通过大量样本比对和机器学习来提高精准度,样本越多、方言种类越丰富,就越能提高语音甚至语意的识别度。

事实上,阿里的人工智能平台阿里云ET一年多以来在各个阿里云栖大会上进行实时的现场速记,已经证明了阿里云本身在语音和语意识别上的技术能力。即便是在专业语音识别系统性能竞赛中,阿里在美国国家标准署2016年举办的NIST SRE2016中,获得大中华区声纹识别性能第一、美国赛区第二的成绩,足以说明其算法能力。

当然,AliGenie更重要的地方在于其不仅是个语音语意识别系统和人机交流系统,同时也是个开放的开发者平台。从这一点,我们就能看出阿里人工智能实验室的思路与阿里集团整体的做平台的思路一脉相承,这一点更值得关注。

image.png

平台和生态战略


说到阿里人工智能实验室,其实这是一个负责阿里巴巴集团旗下消费级AI产品研发的部门,使命是探索人机交互新大陆。

既然是面向2C消费级,背靠阿里的云计算、大数据和人工智能基础的AliGenie,肯定会与美泰这样的消费级硬件生产商产生更多的合作。据了解,AliGenie目前已经支持100多个品牌,包括接入阿里智能联盟、涂鸦科技、broadlink等智能家居方案的产品;当然笔者还记得阿里巴巴本身在物联网领域已经与很多智能家电厂商有深入的合作,这些智能家电厂商更需要AliGenie这样的人机交流系统提供支持

除此之外,AliGenie开发者平台还会把个人内容开发者、应用开发者、智能家居开发商、硬件生产商等纳入生态体系,这样才能最大限度地从应用场景方面,发展人工智能技术。

可以说,阿里做AliGenie,实际上是把阿里云ET的整体人工智能细分化和聚焦化,形成语音语意识别层的平台和生态。而天猫精灵X1,是阿里整个人工智能生态中,接触消费大众的一个触角。

image.png

在我看来,阿里的优势除了技术,就在于其平台和生态。开发者和硬件厂商通过AliGenie开发者平台的语音技术、服务入口以及硬件方案,享受到的还不仅仅是在阿里云和大数据技术平台的支撑下,云端一体化带来的智能化技术优势,而且还可以整合阿里巴巴生态体系中的互联网服务和商业链接能力,更快速和更方便地为每一个家庭消费者带来更丰富多彩和更平易近人的智能体验。

换句话说,天猫精灵的出现,很可能会加速智能化黑科技的产业化进程。别的不说,我还是期待天猫精灵在不久的将来,就能加入个呼唤玩具的功能吧。而你,期待的又是啥呢?

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
5月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2372 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
10月前
|
机器学习/深度学习 人工智能 编解码
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
万相首尾帧模型是阿里通义开源的14B参数规模视频生成模型,基于DiT架构和高效视频压缩VAE,能够根据首尾帧图像自动生成5秒720p高清视频,支持多种风格变换和细节复刻。
2093 9
AI视频生成也能自动补全!Wan2.1 FLF2V:阿里通义开源14B视频生成模型,用首尾两帧生成过渡动画
|
5月前
|
人工智能 数据处理 云栖大会
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
698 9
云栖现场|让评测与标注成为AI进化引擎!阿里发布全新评测平台,3大创新评测集亮相
|
7月前
|
人工智能 搜索推荐 API
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
AI-Compass DeepSearch深度搜索生态:集成阿里ZeroSearch、字节DeerFlow、MindSearch等前沿平台,实现超越传统关键词匹配的智能信息检索革命
|
6月前
|
机器学习/深度学习 数据采集 人工智能
阿里开源即封神,一上线就斩获4000+ star背后的真相,WebAgent多步骤智能网搜神器,颠覆你对AI的信息检索印象!
WebAgent 是阿里巴巴开源的多步骤智能网搜神器,包含 WebWalker、WebDancer、WebSailor 等模块,支持复杂推理与长上下文信息检索,GitHub 已获 4.7k star,颠覆传统 AI 搜索方式。
854 1
|
8月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦!
3171 3
|
8月前
|
人工智能 IDE 程序员
阿里也出手了!灵码AI IDE问世
各位程序员小伙伴们,是不是还在为写代码头秃?别担心,阿里云带着它的通义灵码 AI IDE 来拯救你啦! 相信不少小伙伴已经在VSCode、JetBrains IDE等主流开发工具中安装过通义灵码这款插件。 通义灵码插件全网总下载量超 1500 万,开发者采纳代码行数超 30 亿且每月增速 20%-30%。 今天我们要说的不是这款插件,而是阿里刚出的“为AI而生的灵码IDE”。
1124 0
|
12月前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
4105 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频