百度度秘机器人肯德基「上岗」:人工智能从实验室走入生活

简介: 4月25日,百度与肯德基联手打造的智能概念店「KFC original+」在上海市「国家会展中心」正式亮相,度秘机器人化身智能员工直接为消费者提供服务,消费者可以使用日常语言与度秘进行交互,完成从点餐到支付的全流程。

1、度秘机器人入驻肯德基概念店


4月25日,百度与肯德基联手打造的智能概念店「KFC original+」在上海市「国家会展中心」正式亮相,度秘机器人化身智能员工直接为消费者提供服务,消费者可以使用日常语言与度秘进行交互,完成从点餐到支付的全流程。

微信图片_20211126190806.jpg

度秘机器人化身肯德基中国首位智能员工服务消费者


这是一款集成了百度多种人工智能技术的实体机器人,消费者通过语音的方式与其交互,像其他语音类产品一样,每次交互时用户需要按下实体按钮进行触发,整个点餐过程需要「开始点餐」、「选定套餐」、「确认用餐方式(堂食/带走)」「订单确认」和「支付」四个环节,大约用时1分钟。其中,第一、三、四环节都比较确定,第二环节「选定套餐」则会涉及比较复杂的语音交互和语义理解,机器之心记者用几个在点餐过程中比较常用的问题对度秘机器人进行了几项测试:


1)在选套餐时,没有按照默认要求说出「某号套餐」,只提到套餐中的汉堡名称,系统也可以自动识别出是哪个套餐。


2)在确定用餐方式,没有按照默认要求说出「带走」,还是换成了「打包」,系统也可以识别出用户的意图。


3)选定套餐后进行修改也比较方便智能,比如一开始选定了3号套餐,然后用比较自然的语言说出「请帮我换成1号套餐」、或者「我不要3号套餐了,我要1号套餐」等命令,度秘也可以识别出来并进行套餐更换。


4)选定套餐后,度秘会说「还有什么我可以帮你?」测试员这时说「可乐不加冰」,面对这一具有挑战性的需求,度秘有些犯难:「您的需求可以在取餐时向服务人员说明哦,么么哒。请问还有其他需要吗?」

微信图片_20211126190839.jpg

肯德基智能概念店里可爱呆萌的度秘机器人


这是百度首次将人工智能技术应用于连锁餐饮行业,面临着现场噪音、用户点餐语音命令较为多样和灵活等难题。从现场体验来看,度秘能够完成基本的点餐任务,但由于语义理解本身的困难,应对和用户之间较为复杂的自然语言交互方面还存在进步空间。但总之,这是一次人工智能技术应用于特定应用场景的重要尝试,而且确实能够帮助用户解决问题。百度多模搜索部总监孙雯玉在接受机器之心采访时被问到「这是否是一款成熟的商业应用?」时,她回答说:「这要看怎么定义『成熟』,如果说和人比还谈不上成熟,但是如果你说可用,我觉得是可以(说成熟)的。」


2、度秘机器人首次进入生活服务场景 ,背后的人工智能技术创新


百度副总裁王海峰在启动仪式的演讲中提到:「百度通过不断的技术创新,索引真实世界将最符合用户需求的信息或服务及时准确的交付给用户。」而此次度秘机器人亮相肯德基,是百度人工智能技术进入人们线下日常生活服务场景的首次尝试,也是度秘首次从手机和互联网延伸到实体场景,极大扩展了度秘的应用范围。

微信图片_20211126190917.jpg

百度副总裁王海峰现场演讲


特定需求和实体环境也带来了很大的挑战,百度大搜索总产品架构师景鲲表示,双方最开始合作这个项目时,尤其是肯德基的同事,觉得这是一个不可能完成的任务。「我们开玩笑地说,这可能是世界上第一家真正把人工智能技术变成硬件放在商业场景里面去的,之前没有先例,但我们对自身的技术肯定是很有自信的。另一方面,肯德基从一个商业角度来说,希望做探索性的事情,但不知道这个事情能否成功,所以最开始我们探讨很多种可能性。这个事情在很短的时间内做成,大家回想起来觉得是一个很好玩的过程,很有成就感。」对于度秘的进步和新的阶段性任务的达成,孙雯玉也有同样兴奋:「肯德基的负责人说,把这个事情做成,就是把他们当初触碰的梦想落地实现。我们也是如此,背后的技术积累,百度做了很久,从发布度秘以后,我们也做了很多优化,从最早的手机端度秘到今天实体店应用,将度秘真正搬到现实场景,真正的跟真实的业务流程结合之后,变成和人可交互的场景,其实还是非常令人兴奋的一种体验。」


度秘能够作为一个生动形象的机器人出现在肯德基的门店里,带给用户新的体验并且可以高效的为用户服务,为肯德基节约人力,这主要源于百度对「连接人与信息及服务」这个目标的坚持、对特定应用场景的理解以及背后人工智能技术的积累。


对于连接人与信息及服务这个目标,王海峰表示:「此次与肯德基的合作是百度人工智能技术的一个里程碑,因为我们真正的让人工智能技术在现实生活场景为消费者提供服务,将百度连接人与信息及服务的能力从线上延伸到线下,通过技术创新把真实世界索引进我们的系统。」将度秘应用于智能点餐,不仅将其应用场景从线上扩展到线下,解决了现实世界的具体问题,还借助点餐这样一种真实场景提供了一次宝贵的继续锤炼和打磨度秘产品的机会,让其更好的适应现实情况,以期待解决更多问题,这是一个「度秘走出实验室,更多接触实际应用场景,变得越来越聪明、越来越有智慧的一个过程」。


在应用场景上,王海峰称之为「这是针对特定场景、特定应用所做的定制化开发。」肯德基作为需求方提供了两方面支持,首先是非常明确的现有产品,比如套餐内容等等;其次是提供了大概的业务逻辑和顾客的点餐流程。百度基于这两部分内容,结合多轮交互,进行系统的开发,然后在这个垂类下做更丰富的适应。这里的难度在于用户的讲话顺序和方式没有明确的逻辑做参考,比如说有的人先确定套餐,而有人会先说「带走」;有的人会说要1号套餐,而有的人会说我要全家桶套餐。对于这些问题的解决方案也像是肯德基培训店员一样,让机器基于各种情况去训练。「从我们的角度来讲,一开始我们的理解没有这么深,但我们会把这些表达拿过来让机器来学习,不停的迭代让我们去培训机器,我们就会慢慢交出他们很满意的产品。」


支撑度秘完成以上这些任务的是百度在多项人工智能技术方面的积累,王海峰表示:「这不仅体现了百度最先进的语音识别技术,还涉及到语言语义理解、对接服务能力等等,集成了百度很多最先进的技术。」针对智能点餐任务,百度使用了实体机器人,提供了软硬件结合的解决方案,在机器人身上配置了麦克风阵列,解决了收音的一部分问题,比如说噪音消除等。在软件方面,虽然语音是唯一的交互方式,但百度是通过语音识别、语义理解和搜索三方面的整合来提升识别精度,而非单纯依靠语音识别。孙雯玉表示:「比如说有一部分识别错了,但没有影响到句子主干的语义,后台的自然语音模块可以通过容错这个东西迈过去。」此前王海峰在「百度搜索媒体开放日」上提到,百度的语音搜索不是语音识别和搜索的简单相加,而是借助搜索改变语音识别,同时在搜索中进一步加工处理。百度的语音搜索包含语音技术、自然语言处理和智能搜索三方面,除了知道内容是什么,还要进行理解和思考,同时实现对用户需求的理解、对自身拥有内容的理解,以及对知识的掌握应用,从而更加智能的将用户需求和服务匹配起来。此次提供点餐服务的度秘机器人也体现出了这种对人工智能技术相关的整合和综合利用。

微信图片_20211126190935.jpg

百度副总裁王海峰接受机器之心记者采访


此次度秘的开发过程不是一个从零开始的过程,「我们后台积累的技术,以及积累的数据,实际是百度过去发展的十几年,以及互联网过去的十几年,大量的数据积累到现在的,最后是针对这个应用定制好的。」王海峰表示。


这对于度秘来说也仅仅是个开始,在语音识别和语义理解方面还有很多问题需要解决,但这样一个真实场景可以让度秘保持一种持续进步的状态。「度秘会在交互的过程中积累数据和学习,人工智能很重要的一点就是在场景中不断的学习。」王海峰说。因此,百度在和肯德基合作时非常看重样本丰富程度,「我们需要这些真实场景的数据,这样才能真正的把我们在这些场景的能力打造起来。你总得迈出第一步。目前所有的困难都在于,我们有技术基础,但是我们的整个数据不够丰富,所以度秘在这个场景下也得有一个学习和成长的过程。」孙雯玉表示。肯德基同事告诉景鲲,最近一段时间,每天都会感觉到度秘在变得更成熟。


除了度秘借助数据的自我学习和成长,百度也在积极的进行度秘新版本的开发迭代,孙雯玉说:「我们现在第一优先级的事情,还是打造度秘后台的能力,以应对更多的使用场景。」王海峰表示,基于上海话等方言版本正在开发中。


3、员工「度秘」服务消费者,人工智能走入生活


度秘和肯德基的合作是百度人工智能技术的一次落地,而且实现了从移动端到现实世界的过渡,面对王海峰所说的「未来我们将接入3600行,在更多场景下为消费者提供最优质的服务。」这个宏大目标,百度和度秘还将进行更多更广泛的探索,王海峰表示,度秘也正在探讨其他商业场景的应用。


王海峰在演讲中提到:「今年是人工智能概念正式诞生60周年,期间人工智能起起落落,走向高潮的时候是因为人们对人工智能有很高期望,认为它能做很多事情;而走向低谷的时候也是因为一些期望其实没有达成。而今天我们非常高兴地看到人工智能真正开始走进我们生活的方方面面,所以我相信人工智能会持续处在上升趋势。」


度秘的此次尝试不仅是解决了特定场景下的一个具体问题,更重要的是将人工智能技术带到了我们身边,让我们在关注人工智能概念、研究进展、行业趋势之余,可以在生活中切身感受到人工智能所带来的便利。


人工智能技术已经有着丰富的应用,谷歌、百度等公司会借助机器学习来改善搜索引擎的推荐算法和广告匹配;IBM 认知系统 Watson 可以辅助医生进行诊断;Facebook 人工智能平台以每秒 600 万次预测来推荐信息流;高盛使用机器学习进行海量金融信息处理;人机协同的「综合战略机器」可以帮助各类公司进行更好的商业决策;AlphaGo 征服了围棋。但对于普通消费者来说,经常会感觉到这些最先进的人工智能技术距离自己较远,在一定程度上无法享受到这些技术带来的便利。这一方面原因是人工智能的某些技术目前还达不到民用要求,另一方面原因是技术和大众应用场景的结合还不够完善。在这种环境下,度秘开启了一次勇敢的尝试,而随着人工智能技术的逐步完善和应用场景的持续挖掘,人工智能技术终将走入我们的生活。就像 Pedro Domingos 在《The Master Algorithm》一书中提到的「我们生活在一个算法的时代。」


对于大众来说,人工智能如何改变我们的生活,可以解决我们哪些问题,要比超级智能是否要主宰世界这样的话题更加实用。当然,人工智能对我们生活的渗透是个漫长的过程,而幸运的是,我们看到了一个不错的开始。

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
29天前
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
62 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
21天前
|
人工智能 自然语言处理 测试技术
阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI
在通义灵码 2.0 发布会上,阿里云通义实验室自然语言处理方向负责人黄非分享了代码大模型的演进。过去一年来,随着大模型技术的发展,特别是智能体技术的深入应用,通义灵码也在智能体的基础上研发了针对于整个软件研发流程的不同任务的智能体,这里既包括单智能体,也包括多智能体合并框架,在这样的基础上我们研发了通义灵码2.0。
120 21
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
155 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
3月前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
271 64
|
2月前
|
机器学习/深度学习 人工智能 算法
人工智能与机器人的结合:智能化世界的未来
人工智能与机器人的结合:智能化世界的未来
286 32
|
2月前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
99 13
|
3月前
|
人工智能 编解码 BI
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
59 2
LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型
|
3月前
|
人工智能 架构师 大数据
广西广电X阿里云:共同成立全媒体AI实验室!
广西广电X阿里云:共同成立全媒体AI实验室!
58 5
|
3月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
52 2