推荐场景下融合多模态信息的内容召回模型

简介: 推荐场景下融合多模态信息的内容召回模型

1.gif

本系列将系统介绍召回技术在内容推荐的实践与总结。

第一篇:2021召回技术在内容推荐的实践总结

第二篇:CMDM:基于异构序列融合的多兴趣深度召回模型在内容平台的探索和实践

第三篇:内容推荐场景下多模态语义召回的若干实践

第四篇:多序列融合召回在新用户冷启动上的应用

背景

淘宝逛逛场景作为一个全新的内容域电商阵地,包含了逛和买两大用户消费心智的建立;所以与传统的商品推荐不同的是内容推荐更需要兼顾内容生态问题,传统的cf  based i2i, deep i2i 及 双塔u2i deep  match模型在内容推荐领域由于缺乏足够的doc侧表征建模,所以往往很难有效平衡效率与生态之间的关系。同时目前的推荐系统主要还是依赖behaviour  based模型的,所以如何在基于behaviour based模型的基础上融合多模态表征带来的泛化性能力是我们主要面临的挑战。

问题分析

内容召回模型的结果决定了整个内容推荐系统的上界,所以目前常见的内容推荐系统的召回体系通常涵盖两种范式的模型,即基于行为的模型与content based的模型。前者通常主要承担了效率指标的任务,后者通常更多的是进行内容的冷启动。

由于主流的推荐系统的召回体系都是由基于行为的模型主导的,即该类型的流量占比是远大于其他类的,所以如何使的基于行为的模型能够兼顾一定的泛化性是主要面临的挑战。从基于行为的模型出发,这类模型严重依赖于id类型特征的贡献,所以这种推荐模型很容易使得整个系统陷入数据自旋问题,而通过给doc侧增加一些相对泛化的特征,及dropout等技术,虽然也能使模型在学习的过程中弱化对于id类特征的依赖,但是通常这类做法不是最优的。目前常见的doc表征做法主要有基于多模态预训练技术提取的内容表征向量作为辅助信息,结合内容理解技术提取的内容标签等作为辅助信息加入到双塔模型的doc侧,这类做法在线上也取得了一定的效果,但是由于这类meta信息与模型的结合只是特征层面的,并不是一个最优的结构,所以我们也对doc表征如何融合meta信息进行了一定程度的探索。

模型结构

我们在传统的deep  i2i,及双塔deep u2i结构的基础上对doc侧进行了一些探索。在比较了基于行为的deep i2i,deep u2i与基于content  based特征结构构造的deep i2i, deep  u2i模型后我们发现两种特征结构得到模型之间其实loss差异很大,但是对多模态预训练得到的表征向量如果进行多层树状结构的聚类等操作后,随着这个聚类节点的增大,那么如果将这个聚类得到的虚拟node   id作为一个特征来替换原来的多模态向量,那么这个模型的loss差异会逐步接近于基于行为特征构建的模型。从而我们提出了将基于行为特征构建的行为塔与基于内容特征构建的内容塔分别独立建模,最终通过对这两个塔产生的向量以相似度任务的方式进行结合的方法进行了base模型的建模,从而试图将相似的内容的表征向量向behavior  driven  model的表征空间里去靠。而在第二阶段,我们则对这两个塔通过引入gate机制的方式进行了整合,从而使得模型结构看起来更加简洁的同时也进一步提升了整体表现,下面我们将分别从base结构及融合后验信息的gating结构两方面进行简单阐述。

 base结构

image.png

image.png

我们在deep  i2i及deep u2i两种范式的基础上,针对doc侧结合multi-view  learning的思路进行了分别建模,最终通过多任务loss结合的方式进行训练,从而实现对doc的行为塔与基于doc自身内容属性的内容塔的分别建模。其中针对doc自身内容属性的内容塔我们使用了来自内容理解团队提供的内容标签及多模态向量表征,这部分的相关工作可以参考(Understanding  Chinese Video and Language via Contrastive Multimodal Pre-Training).

首先doc侧的表征刻画使用了两个不同的特征子集来分别表征行为塔(含内容id等的特征结构,但不含内容自身的meta信息)与内容塔(不含id类的特征结构,主要由内容自身的meta信息及多模态信息),两个不同视图的塔都会与trigger/user塔进行loss的计算,同时考虑到两种视图描述的是同一个事物本身,那么这两个视图之间可以依靠顶层设计进行相似度任务的计算,所以我们对于行为塔与内容塔又使用了triplet  loss来构造损失函数使得embedding空间更具有区分度。

image.png

该模型上线后,相比标准的双塔结构(用户表征塔及行为塔)在效率与生态指标上 都取得了不错的提升。

 召回阶段融合后验信息的gating结构

image.png

相较于前文的base结构,由于在模型的过程中行为塔与内容塔是分别建模的,处理方式较为简单,所以我们在base结构的基础上提出了融合内容自身后验的曝光、点击等统计信息作为gating结构输入的,通过gate结构来控制基于行为特征的id塔及基于内容自身内容属性特征构建的meta塔之间的融合关系。该模型相对于base模型而言由于利用了后验统计信息来帮助模型学习如何调节行为塔表征与内容塔表征之间的融合权重,从而使得样本集合中后验信息丰富的内容能够更依赖于其行为id塔学习得到的表征,而那些后验信息稀疏的内容则更多的能利用其相对泛化的meta塔学习得到的表征,从而相较base模型更能兼顾效率指标与生态指标的平衡。在这里我们也尝试了多种双塔融合的方式,其中包括concat型融合与加和型融合;

其中concat型融合结构的 item_embedding计算方式为:item_embedding = concat(id_embedding, gate*meta_embedding)在计算user_embedding  与 item_embedding  的内积时,等价于id表征和meta表征的加合。同时gate控制了meta_embedding的参与度,期望能学习到当统计特征(点击pv,曝光pv等)较小时,gate越大,meta_embedding的参与度越强

而加和型模型结构将gate值作为调节id塔embedding和mata塔embedding的权重,最终融合公式为:image.png

模型对于较强的内容(具有更高的点击、曝光)更多的使用id类型特征,对于较弱的内容,增加meta类特征的权重,增加模型的泛化能力。

在整体实验中我们发现加和型融合相较concat型融合更能取得较为明显的提升。

总结与展望

本文提出的两种doc表征建模方式由于融合了基于行为的表示与基于内容自身多模态的表示,所以相对于传统的双塔deep  match更能兼顾内容生态与效率的平衡,但由于目前多模态部分是一个单独的自监督任务,所以目前我们也正在尝试使用一个不考虑online  serving的融合内容不同模态信息的end2end推荐任务进行不同内容表征的doc表征建模任务,之后通过将这个预训练的doc表征初始化的方式指导下游召回任务进行学习,从而规避rt瓶颈的同时进一步提升模型表征的学习。

总结与展望

我们来自淘宝逛逛算法团队,逛逛是淘宝重要的内容化场景,团队优势有:

  1. 业务空间大、基础设施完善:场景海量反馈,在工程团队的支持下,算法工程师可以轻松上线大规模模型,分钟级更新,更加注重算法本身。
  2. 团队氛围好、研究与落地深度结合:团队不仅仅解决业务算法问题,还会紧跟学术领域进展。也欢迎有实习想法的同学加入,由资深师兄根据同学优势与兴趣定义好业务问题,辅导研究,给每位同学都有充分的成长空间。

相关文章
|
2月前
|
存储 监控 算法
1688 图片搜索逆向实战:CLIP 多模态融合与特征向量落地方案
本文分享基于CLIP模型与逆向工程实现1688图片搜同款的实战方案。通过抓包分析破解接口签名,结合CLIP多模态特征提取与Faiss向量检索,提升搜索准确率至91%,单次响应低于80ms,日均选品效率提升4倍,全程合规可复现。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
88_多模态提示:图像与文本融合
在人工智能领域的快速发展中,多模态融合已成为突破单一模态限制、实现更全面智能理解的关键技术方向。人类理解世界的方式天然是多模态的——我们同时通过视觉、听觉、语言等多种感官获取信息并进行综合分析。例如,在餐厅点餐时,我们会同时处理菜单上的图片、服务员的介绍和菜品的文字描述,最终做出决策。这种自然的多模态信息整合能力,正是人工智能系统长期以来努力追求的目标。
|
5月前
|
机器学习/深度学习 人工智能 自动驾驶
AI Agent多模态融合策略研究与实证应用
本文从多模态信息融合的理论基础出发,构建了一个结合图像与文本的AI Agent模型,并通过PyTorch代码实现了完整的图文问答流程。未来,多模态智能体将在医疗、自动驾驶、虚拟助手等领域展现巨大潜力。模型优化的核心是提升不同模态的协同理解与推理能力,从而打造真正“理解世界”的AI Agent。
AI Agent多模态融合策略研究与实证应用
|
4月前
|
传感器 机器学习/深度学习 监控
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
【图像融合】差异的高斯:一种简单有效的通用图像融合方法[用于融合红外和可见光图像、多焦点图像、多模态医学图像和多曝光图像](Matlab代码实现)
183 0
|
6月前
|
机器学习/深度学习 资源调度 算法
Kaggle金牌方案复现:CGO-Transformer-GRU多模态融合预测实战
本文详细介绍了在2023年Kaggle "Global Multimodal Demand Forecasting Challenge"中夺冠的**CGO-Transformer-GRU**方案。该方案通过融合协方差引导优化(CGO)、注意力机制和时序建模技术,解决了多模态数据预测中的核心挑战,包括异构数据对齐、模态动态变化及长短期依赖建模。方案创新性地提出了动态门控机制、混合架构和梯度平衡算法,并在公开数据集TMU-MDFD上取得了RMSE 7.83的优异成绩,领先亚军12.6%。
289 1
|
5月前
|
JSON 算法 安全
1688图片搜索逆向工程与多模态搜索融合实践——基于CLIP模型的特征向
本文介绍了通过逆向工程分析实现图片搜索的技术方案,包括请求特征捕获、签名算法破解及多模态搜索的实现。利用CLIP模型提取图像特征,并结合Faiss优化相似度计算,提升搜索效率。最后提供完整调用示例,模拟实现非官方API的图片搜索功能。
|
6月前
|
传感器 人工智能 搜索推荐
人机融合智能 | 可穿戴计算设备的多模态交互
本文介绍了可穿戴计算设备的多模态交互技术,阐述了以人为中心的设计目标与原则。内容涵盖设备的历史发展、特点及分类,并重点分析手指触控、手部动作、头部和眼睛动作等交互模态。同时探讨支持这些交互的传感器种类与原理,以及未来挑战。通过十个设计原则,强调自然高效、个性化、低认知负荷及隐私保护的重要性,为可穿戴技术的设计提供指导。
335 0
|
8月前
|
机器学习/深度学习 存储 数据可视化
KG4MM:融合知识图谱与多模态数据预测药物相互作用
本文探讨了用于多模态学习的知识图谱(KG4MM)在药物相互作用(DDI)预测中的应用。知识图谱通过整合药物的分子图像和文本描述,提供结构化先验知识,指导模型关注关键信息。具体实现中,利用图神经网络(GNN)连接知识图谱与多模态数据,通过注意力机制提取最具区分性的特征。以 Goserelin 和 Desmopressin 为例,模型结合直接边关系和共享节点路径,生成透明可解释的预测结果。实验表明,KG4MM 方法显著提升了预测准确性与可解释性,为生物医学领域提供了新思路。
284 0
KG4MM:融合知识图谱与多模态数据预测药物相互作用
|
9月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
498 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!

热门文章

最新文章