当AI客服遇上「图文混排」提问,京东给电商AI来了场摸底考试

简介: 当买家非要「看图说话」,AI 客服要怎么破?


对于很多人来说,决定自己网购体验的,除了快递的速度,还有AI客服咨询的流畅和智能水平。


随着人机对话技术的发展,越来越多的电商企业开始用 AI 客服来回答用户的问题。虽然AI客服在文本对话中已经可以流畅回应,并切实帮助用户解答问题,但随着图片等多模态信息在对话中越来越频繁地出现,当前的 AI 客服正面临愈发严峻的挑战,不仅要理解文字内容,还要理解图片等多模态内容。AI客服在多模态场景的应用,还需要进一步的技术突破。


为了推动跨模态智能对话与人机交互技术的发展,京东 AI 研究院联合北京智源人工智能研究院在2018年首届任务导向型对话挑战赛、2019年基于知识增强的任务导向型对话挑战赛的基础上,共同举办 2020 年多模态任务导向型多轮对话挑战赛。本次大赛聚焦大规模真实复杂零售场景下多模态人机交互问题,通过打造多模态对话系统提升人机交互的自然度和体验。


微信图片_20211204211704.jpg


这次比赛 5 月 25 日开赛,9 月 15 日截止模型提交,总共历时 17 周,报名参赛选手共 734 人。最终,来自腾讯 AI Lab 的团队脱颖而出,摘得大赛一等奖;来自众多企业、高校、研究机构的团队也在此次大赛中展现出非凡的实力。


前段时间,中国计算语言学大会(CCL 2020)技术评测研讨会智源 - 京东多模态对话挑战大赛任务研讨会在线召开。在此次研讨会上,主办方京东 AI 研究院对本年的对话大赛进行了全方位的回顾与总结,几支获奖团队也受邀分享了此次大赛的比赛方案。


赛题设置和辅助信息


本次大赛考察的是多模态对话场景的问答问题。其中,「多模态」指的是对话 session 中用户提出的问题至少包含一张图片信息。整个场景包含 n 轮对话,参赛者可以拿到用户在此轮对话中提出的问题 Q_n 和此轮对话前 n-1 轮的对话历史信息,然后根据上下文和此轮问题给出通顺、逻辑一致且含有丰富知识的答案,以满足用户期望。最终评测采用自动评测、人工评测与技术方案评价相结合的方式进行。


微信图片_20211204211710.jpgimage.gif


由于在真实的线上服务场景中,用户发送的是多模态的图文信息,客服一般回复的都是文本信息。所以,本次大赛考察的重点是多模态的上下文语义理解、单模态的文本应答这样一个任务场景。


为了挑战这一难题,大赛构建了 JDDC 2.0 (Jing Dong Dialogue Corpus 2.0) 数据集。该数据集由服饰品类和小家电品类线上金牌客服的含有多模态信息的对话日志组成,是首个中文多模态对话数据集,包含多模态对话 24.6 万段,平均会话长度为 14 轮。


微信图片_20211204211715.png


微信图片_20211204211718.png


为了使参赛者更方便地使用对话中的图片信息,数据集选取了 5000 段小家电类对话和 5000 段服饰类对话,对其中所包含的图片进行了人工分类打标,共提供了 1.69 万张图片的 58 类标签。



微信图片_20211204211721.png

image.gif

此外,数据集还提供了对话中所涉及的商品知识库信息。整个知识库一共包含商品知识三元组 21.9 万条,其中含商品实体共 3 万多个,分别属于 231 种商品,包含 759 种商品属性关系。商品属性关系准确详尽,不仅包含商品基本属性信息,还包含商品卖点信息,可应用于商品属性应答、商品推荐等场景。

image.gif

微信图片_20211204211724.png


赛题难点


这场比赛的难点体现在多个方面。首先是长尾问题。在电商情景中,用户提出的问题五花八门,非常见问题可能占了很大比例。例如,在一个电磁炉的销售案例中,多数用户会问如何调节功率,但偶尔也有客户会问怎么设置温度。对于这类非常见问题,模型的表现可能不尽如人意。


第二个问题是上下文建模。购物场景中的对话轮次通常比较长,且前后内容相关性很强。如果模型只看当前或近几轮的交互,就会出现逻辑细节上的矛盾。因此,只有有效建模上下文,才能准确表达上下文中的细节信息。


微信图片_20211204211727.png


第三个问题是多模态特征提取和融合。多模态特征的提取方式分为很多种,可以利用整张图像提取特征,也可以只利用感兴趣区域(ROI)或图片上的文字。究竟哪种提取方式更有效还是一个需要探讨的问题。提取完成后,我们还要考虑这些特征要怎么与文本模态特征进行融合。


第四个问题是情感交流。在真实的业务场景中,用户可能本身就有一种不满或委屈的情绪,这就需要模型在解决问题的同时还要能够与用户有比较好的情感交流,提供更贴心的服务。


最后一个是决策问题。有些商品不可避免地有些小瑕疵,也不影响使用,一般人工客服都会选择对顾客进行小额经济补偿。如果模型选择每单都让顾客退货的话,就会造成一定的社会资源浪费。这种场景对模型的决策能力提出了很高的要求。


微信图片_20211204211730.png


获奖团队解决方案


此次比赛涌现的解决方案利用了当前比较热门的一些技术点,比如对 Transformer、大规模参数语言模型、生成式模型、大规模预训练模型和多模态知识的运用。


微信图片_20211204211733.pngimage.gif


在架构方面,优胜团队要么使用基于 Transformer 的语言模型,要么直接使用 Transformer 构建编解码器。由此可见,Transformer 已经取代 RNN 成为自然语言处理最主流的特征抽取器。


在模型规模方面,多个获奖团队选择了 Bert、GPT、UniLM 这样的大规模参数语言模型,利用更多的参数得到更好的对话效果。


在模型类别方面,优胜队伍几乎一边倒地使用了生成式模型,这也说明在语料充足的情况下,各种以 Transformer 为基础的生成模型在对话生成的语言流畅程度、应答相关性等方面表现与检索式模型没有区别,甚至会更有优势。


在预训练模型方面,第一名和第四名都使用了大规模数据预训练的 BERT 模型作为基础,这两个模型在人工单项评分中应答的满意率也略高一些,可见大规模预训练模型有助于进一步提升系统性能。


在知识方面,恰当融合多模态知识的参赛模型在某些场景下能够弥补单模态的信息缺失,提供更加满意的答案。


接下来,我们来看一下排名前二的优胜团队的具体解决方案。


腾讯 AI Lab:基于预训练语言模型和结构化知识库的多模态对话生成模型


第一名是来自腾讯 AI Lab 的团队(Arrival),他们构建了「基于预训练语言模型和结构化知识库的多模态对话生成模型」。该方案充分利用对话中的多模态信息与知识信息构建了基于预训练 BERT 的对话生成模型,并取得了良好效果。

方案的第一个阶段是通过领域适应预训练构建一个面向结构化知识库的对话模型,其中涉及知识库预训练、序列预训练、回复预训练等步骤。


第二个阶段是训练出能够同时支持多模态信息和知识信息的生成模型。首先,使用 ResNet 模型抽取图片特征并通过 K-means 实现图片聚类,将图片抽象化为 200 类 token 信息。然后,将这些信息融入先前训练好的面向结构化知识库的对话模型中,通过训练产生能够同时支持多模态信息和知识信息的生成模型。


微信图片_20211204211737.png


微信图片_20211204211740.png


云从科技:基于 GPT 模型的多模态融合方法及系统


第二名是来自云从科技的团队,他们构建了「基于 GPT 模型的多模态融合方法及系统」,使用多模态方式打造 GPT 对话模型。


在该方案中,模型采用上下文串接的方式将对话涉及的商品知识三元组放在对话的开头,作为对话的背景知识。然后,采用 ResNet 模型提取多模态图片中的特征。接下来,利用模型 Embedding 层向量叠加的方式将图片特征与文本特征相融合。最后,将这些融合后的多模态数据输入 GPT 结构为核心实现的编解码一体化模型,完成对话生成任务。


微信图片_20211204211743.png



微信图片_20211204211747.png


其他获奖团队的解决方案也都有各自的亮点,此处不一一赘述。


除了这些解决方案之外,本次大赛构建的首个中文多模态对话数据集 JDDC 2.0 也将在比赛结束后向公众开放,这些真实零售场景中的脱敏数据对于产学研融合和多轮对话发展将起到重要的推动作用。


为解决真实场景对话的各种挑战,京东 AI 已经连续举办了三届对话大赛,明年也会在同个时间周期举办 2021 年的对话大赛,欢迎各路高手前来 PK。


© THE END


转载请联系本公众号获得授权


投稿或寻求报道:content@jiqizhixin.com

相关文章
|
1月前
|
人工智能 自然语言处理 搜索推荐
AI技术在智能客服系统中的应用与挑战
【9月更文挑战第32天】本文将探讨AI技术在智能客服系统中的应用及其面临的挑战。我们将分析AI技术如何改变传统客服模式,提高服务质量和效率,并讨论在实际应用中可能遇到的问题和解决方案。
208 65
|
12天前
|
存储 人工智能 数据可视化
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
在数字化时代,企业面临海量客户对话数据处理的挑战。阿里云推出的“AI大模型助力客户对话分析”解决方案,通过先进的AI技术和智能化分析,帮助企业精准识别客户意图、发现服务质量问题,并生成详尽的分析报告和可视化数据。该方案采用按需付费模式,有效降低企业运营成本,提升客服质量和销售转化率。
高效率,低成本!且看阿里云AI大模型如何帮助企业提升客服质量和销售转化率
|
23天前
|
人工智能
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
添加一个Stable Difussion图像生成应用,通过向AI助手简单的提问,即可快速搭建Stable Diffusion应用至自己的网站中,大幅提升开发效率。
|
8天前
|
人工智能 自然语言处理 安全
AI技术在智能客服系统中的应用与挑战
【10月更文挑战第28天】本文将深入探讨人工智能(AI)技术在智能客服系统中的应用及其面临的挑战。我们将通过实例分析,了解AI如何改善客户服务体验,提高效率和降低成本。同时,我们也将关注AI在实际应用中可能遇到的问题,如语义理解、情感识别和数据安全等,并提出相应的解决方案。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在智能客服中的应用:重塑客户体验
AI技术在智能客服中的应用:重塑客户体验
|
2月前
|
人工智能
解决方案评测|10分钟构建AI客服并应用到聊天系统中获奖名单公布
10分钟构建AI客服并应用到聊天系统中获奖名单公布!!!
|
1月前
|
存储 自然语言处理 机器人
实战揭秘:当RAG遇上企业客服系统——从案例出发剖析Retrieval-Augmented Generation技术的真实表现与应用局限,带你深入了解背后的技术细节与解决方案
【10月更文挑战第3天】随着自然语言处理技术的进步,结合检索与生成能力的RAG技术被广泛应用于多个领域,通过访问外部知识源提升生成内容的准确性和上下文一致性。本文通过具体案例探讨RAG技术的优势与局限,并提供实用建议。例如,一家初创公司利用LangChain框架搭建基于RAG的聊天机器人,以自动化FAQ系统减轻客服团队工作负担。尽管该系统在处理简单问题时表现出色,但在面对复杂或多步骤问题时存在局限。此外,RAG系统的性能高度依赖于训练数据的质量和范围。因此,企业在采用RAG技术时需综合评估需求和技术局限性,合理规划技术栈,并辅以必要的人工干预和监督机制。
80 3
|
3月前
|
数据采集 监控 测试技术
大型IM稳定性监测实践:手Q客户端性能防劣化系统的建设之路
本文以iOS端为例,详细分享了手 Q 客户端性能防劣化系统从0到1的构建之路,相信对业界和IM开发者们都有较高的借鉴意义。
126 2
|
7天前
|
人工智能 自然语言处理 搜索推荐
选型攻略 | 智能客服系统该怎么选?(好用的智能客服系统推荐)
智能客服系统的选型需要综合考虑渠道功能、系统性能、客服工作管理、客户管理以及成本效益等因素。目前合力亿捷推出的智能知识库,梳理海量知识,根据不同主题对知识进行分类,使其结构更清晰。
26 0
|
1月前
|
存储 安全 开发工具
百度公共IM系统的Andriod端IM SDK组件架构设计与技术实现
本文主要介绍了百度公共IM系统的Andriod端IM SDK的建设背景、IM SDK主要结构和工作流程以及建设过程遇到的问题和解决方案。
49 3

热门文章

最新文章

下一篇
无影云桌面