买家秀视频标题生成模型 | KDD论文解读

简介: 电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。

新零售智能引擎事业群出品

电子商务领域的视频推荐对于获取新客户有着重要作用。例如,许多消费者会在商品评论区上传视频已分享他们独特的购物体验,这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频(如广告),买家秀视频具有数量大和个性化强的优势,因此,将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。
在这种应用需求下,我们设计了买家秀视频标题自动生成模型,并从以下数据中抽取、关联和聚合有用的信息:1)买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题;2)买家撰写的评论。虽然评论有较多的噪声信息,不能直接作为视频标题呈现,但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3)关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联,我们提取了关联商品的属性信息,如中长款(连衣裙),作为输入。属性结构化的展现了商品的主要特点。接下来本文将介绍Gavotte的重要组成结构以及主要的实验和分析。
本文“Comprehensive Information Integration Modeling Framework for Video Titling”已被KDD 2020录用。

2. Gavotte: Graph based Video Title Generator

2.1 图表示

首先我们介绍一下Gavotte如何将三种输入表示成图结构。
image.png

  • 商品视频信息:我们首先使用了Landmark Detection技术(Liu et al. 2018)检测衣服类商品的商品部位特征,每一帧的每一个部位都视为图节点。我们将同帧的商品部位节点进行全连接,不同帧相同部位节点进行全连接,这种连接方式一方面有利于我们捕捉同帧商品部位间的交互和商品整体风格,另一方面能够捕捉每一个商品部位跨越时间线的动态变化以及不同视点(pointview)下对商品部位的全面感知。为了增强空间-时序视觉商品部位图的时序性和部位特点,我们给每一个节点都加上了位置嵌入(Position Embedding)(Jonas et al. 2017)和类型嵌入(Type Embedding),即最终的节点表征为:
    image.png
  • 视频评论信息:我们将评论中的每一个词作为图节点,并将有语法依赖关系的节点进行连接,我们发现相比于时序关系,捕捉评论中和商品有关的语义信息对生成标题更有价值。
  • 关联商品的属性信息:我们将每一个属性值(如 白色)作为图节点,并对所有节点进行全连接,属性间本身没有时序关系,使用图建模可以更好的探索属性间的特殊交互作用。

2.2 细粒度交互建模

如上图所示,细粒度交互建模对三个异构图的图内关系(Intra-Actions in Graph)和图间关系(Inter-Actions across Graphs)进行了建模。

  • 图内关系建模注重和商品有关的细粒度特征的识别。我们采用了常用而有效的图神经网络作为图内关系建模的可训练框架结构,和最原始的图神经网络相比,本文对信息传播时的根节点和邻居节点进行了单独建模,并采用了自门控机制(Self Gating)。
    image.png
  • 图间关系建模注重异构图之间商品有关细粒度特征的关联和聚合。根据其实际的物理意义,我们将图间关系建模模块称为全局-局部聚合模块(Global-Local Aggregation,GLA)。GLA包含全局门控访问(Global Gated Access)和局部注意(Local Attention)两个子模块。GLA的输入为查询图(Query Graph)和上下文图(Context Graph),输出的聚合图(Aggregated Graph)的结构与查询图一致。
    image.png
  • 全局门控访问用来加强上下文图中与查询图全局相关的信息(可以视为初步筛选过程),并抑制毫不相关的信息。

image.png

  • 局部注意力机制在局部层面(节点级别)筛选上下文图中和查询图节点相关的内容并聚合到该查询图节点上。
    image.png

2.3 故事线摘要模块

故事线摘要建模关注帧级别和视频级别的信息,因此采用帧特征和RNN来进行序列建模。首先我们利用全局-局部模块将细粒度信息和帧信息进行信息融合。这是因为我们发现视频帧建模(如商品-背景交互)和视频建模(如视频故事主题)和商品的细节特点息息相关。
image.png

之后我们采用RNN对视频帧进行序列建模。
image.png

2.4 解码器

在解码器部分我们采用常用的注意力增强的RNN结构(Li et al. 2015),我们在每一步解码阶段都会关注细粒度图信息和帧信息。
image.png

2.5 学习目标

我们采用了常用的交叉熵损失进行训练。
image.png

我们发现对于视频标题的生成,重复词的出现总是有损视频标题的整体吸引程度,因此我们参考了文本摘要(See et al. 2017)中常用的注意力覆盖损失,并提出了生成覆盖损失,用以惩罚和抑制重复词的生成。
image.png
image.png
image.png

3. 实验和分析

我们摘选了主要的实验结果
image.png

可以看到,我们的模型在两个淘宝商品数据集(T-VTD服饰类商品数据,和其他商品类别数据)上去得了最佳的效果。我们的模型在T-VTD上提升显著,在其他商品类别数据上提升会相对弱一些,但这是合理的结果,因为服饰类商品有良好的商品部位定义,我们在其他类别上采用了近似的方法(细节可关注论文)。
image.png

该图展示了Gavotte和其他两个典型模型(基于RNN的SOTA模型 M-Recnet (Wang et al. 2018),和基于Transformer的SOTA模型 M-Livebot (Ma et al. 2019))的生成案例对比。具体而言,第一个案例中M-Recnet生成标题有意义信息较少,第二个案例中M-LiveBot生成标题出现未完成和损坏的情况,Gavotte则生成了网络热词(如 出街、抢镜),生成句子更为流畅,更有吸引力。同时,Gavotte可以识别商品细节级别信息(如 破洞),商品级别信息(如 牛仔裤),商品与背景交互信息(如 出街抢镜)和视频级别故事情节信息(如 这样穿)。

4. 结果与展望

在这次分享中,我们介绍了买家秀视频标题生成模型,Gavotte,以为推荐场景下的买家秀视频自动配上有吸引力的标题。实验证明Gavotte在生成质量上相比一般性的视频描述生成方法取得了显著的提升,并在案例分析中能够捕捉 商品细节、商品整体、商品-背景交互和视频故事情节信息。
5. 参考文献
Liu, Jingyuan, and Hong Lu. "Deep fashion analysis with feature map upsampling and landmark-driven attention." In Proceedings of the European Conference on Computer Vision (ECCV), pp. 0-0. 2018.
Gehring, Jonas, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. "Convolutional sequence to sequence learning." In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1243-1252. JMLR. org, 2017.
Yao, Li, Atousa Torabi, Kyunghyun Cho, Nicolas Ballas, Christopher Pal, Hugo Larochelle, and Aaron Courville. "Describing videos by exploiting temporal structure." In Proceedings of the IEEE international conference on computer vision, pp. 4507-4515. 2015.
Abigail See, Peter J. Liu, Christopher D. Manning. "Get To The Point: Summarization with Pointer-Generator Networks". ACL (1), pp. 1073-1083. 2017.
Wang, Bairui, Lin Ma, Wei Zhang, and Wei Liu. "Reconstruction network for video captioning." In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7622-7631. 2018.
Ma, Shuming, Lei Cui, Damai Dai, Furu Wei, and Xu Sun. "Livebot: Generating live video comments based on visual and textual contexts." In Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 6810-6817. 2019. 

更多数据挖掘领域内容请查看:《KDD精华论文解读》

相关文章
|
机器学习/深度学习 JSON 监控
智能定价模型:借助API实时更新商品价格信息
在电子商务的迅猛发展中,价格战成为商家间常见的竞争方式。然而,一成不变的价格策略无法满足市场的即时需求和消费者的多变偏好。因此,智能定价(也称为动态定价)成为了电商平台提升市场竞争力的关键工具。智能定价模型通过实时监控市场数据和消费者行为,自动调整商品价格以最大化收益或实现其他商业目标。本文将深入探讨如何利用API技术实现智能定价,并提供一个Python代码示例来指导读者进行实时价格更新。
|
机器学习/深度学习 人工智能 算法
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
这次向大家分享的工作是作者所负责团队在国际人工智能多媒体顶会 ACM MM 2022 (CCF-A)发表的文章 “Multi-Level Spatiotemporal Network for Video Summarization”,该文提出了一种用于视频摘要的多层时空网络,在视频摘要领域实现了全球领先的研究探索。基于作者团队在工业级推荐系统方面的研究积累,成功地在阿里云产业大规模视频摘要场景实践中解决了一个视频摘要领域的重要问题,推动了该领域的发展。
3671 1
顶会论文 | 阿里云视频摘要 SOTA 模型:用于视频摘要的多层时空网络
|
SQL 存储 消息中间件
大厂偏爱的Agent技术究竟是个啥
为了解释什么是Agent技术,我在网上搜了一圈,但没有找到想要的结果。反倒是搜到了不少Java Agent技术,要注意Java Agent技术指的是一种Java字节码修改技术,和本文要说的完全是两码事。 既然搜不到,我就说下自己的理解吧。Agent技术是在「客户端」机器上部署一个Agent进程,「客户端」与「服务端」的交互通过这个Agent进行代理,其中Agent与Client通常在同一主机,即可通过「localhost」进行访问。
1898 0
大厂偏爱的Agent技术究竟是个啥
|
机器学习/深度学习 自然语言处理 算法
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
本文是作者在学习文本摘要任务的过程中,根据学习资料总结逐步得到并整理为成文的相关内容。相关学习资料(包括论文、博文、视频等)都会以脚注等形式标明。有一些在一篇内会导致篇幅过长的内容会延伸到其他博文中撰写,但会在本文中提供超链接。 本文将主要列举里程碑式的重要文本摘要论文。 注意:除文首的表格外,本文所参考的论文,如本人已撰写对应的学习博文,则不直接引用原论文,而引用我撰写的博文。 本文会长期更新。
文本摘要(text summarization)任务:研究范式,重要模型,评估指标(持续更新ing...)
|
搜索推荐 机器学习/深度学习 算法
如何增加用户的参与感?交互式推荐来了!
一方面,互动能让用户感受到更多的参与感,并能一定程度上干预推荐结果,而不只是被动接受推荐结果;另一方面,系统通过与用户的互动能更加了解用户的偏好,从而提升推荐效果。那么,我们是如何让用户和推荐系统互动起来的呢?且看下文。
5235 0
|
4月前
|
安全 API
LlamaIndex检索调优实战:分块、HyDE、压缩等8个提效方法快速改善答案质量
本文总结提升RAG检索质量的八大实用技巧:语义分块、混合检索、重排序、HyDE查询生成、上下文压缩、元数据过滤、自适应k值等,结合LlamaIndex实践,有效解决幻觉、上下文错位等问题,显著提升准确率与可引用性。
447 8
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
自适应Prompt技术:让LLM精准理解用户意图的进阶策略
自适应Prompt技术通过动态意图解析与反馈驱动优化,将LLM从“机械执行者”进化为“认知协作者”。企业落地时需聚焦垂直场景,结合自动化工具链快速验证价值。
683 9
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI生成内容为什么有"AI味"?各大模型如何破局
本文深入探讨了AI生成内容中普遍存在的“AI味”现象,从技术角度剖析其成因及解决方法。“AI味”主要表现为语言模式同质化、情感表达平淡、创新性不足和上下文理解局限。这些特征源于训练数据偏差、损失函数设计及安全性约束等技术因素。各大厂商如OpenAI、Anthropic、Google以及国内的百度、阿里云等,正通过多样性训练、Constitutional AI、多模态融合等方法应对这一挑战。未来,对抗性训练、个性化定制、情感建模等技术创新将进一步减少“AI味”。尽管“AI味”反映了当前技术局限,但随着进步,AI生成内容将更自然,同时引发关于人类创作与AI生成界限的哲学思考。
1081 0
|
机器学习/深度学习 存储 算法
算法时间复杂度分析
这篇文章讲解了如何分析算法的时间复杂度,包括关注循环执行次数最多的代码段、总复杂度的确定、嵌套代码复杂度的计算方法,并提供了大O阶的推导步骤和常见时间复杂度的列表,同时还介绍了空间复杂度的概念及其重要性。
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。

热门文章

最新文章