SIGIR阿里论文 | 一种端到端的模型:基于异构内容流的动态排序

简介: 小叽导读:搜索引擎在电商领域扮演着极其重要的角色,它可以很好地引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。

小叽导读:搜索引擎在电商领域扮演着极其重要的角色,它可以很好地引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。在这篇文章中,这些统称为内容流。为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

▌研究背景:

目前,对于异构数据的排序还存在很多的挑战。首先,商品搜索引擎和内容搜索引擎所提供的跨领域知识要被充分利用,使用户在商品搜索引擎中的行为偏好应用到内容搜索引擎中。其次,现有的算法需要支持多媒体内容的排序。
image
在本文中,我们的目标是解决商品搜索引擎和内容搜索引擎中异构数据排序的问题,给用户推荐丰富的、个性化的内容流。我们把算法分成了两部分:1)异构内容流类型排序,即决定每个坑位展示何种类型的内容流,文章、视频还是商品列表;2)同构的内容流内容排序,第二个步骤使用广为人知的DSSM模型,在这个内容流类型下,对内容流的内容进行排序,选择相似度最高的内容插入。本文主要聚焦在第一个步骤。

▌ 所提出的算法:

本文提出两种算法用于内容流类型的排序,独立多臂老虎机算法和个性化马尔科夫深度神经网络算法。

在独立多臂老虎机算法中,我们需要计算一个比例θ,由ipv和pv计算而来,如果θ更高,表示当用户在搜索列表中看到这个内容流的时候,更有可能点击。对于每一个搜索坑位,我们先会计算一个θ的先验分布,这里我们使用Beta分布image, 其中i表示post, list, video。image 代表类型i的历史ipv点击数据,image表示历史浏览数据。image的期望是image,后验概率分布通过一个实时的流数据任务来更新。表示为如下的概率公式:
image
通过这种方式,所有坑位的内容流类型都是独立的,伪代码如下:
image
有依赖的异构数据流类型选择由三种因素决定:用户,query和前一个坑位类型。首先,在同一个query下,用户可以表示出不同的偏好。比如用户搜索“连衣裙”,某个用户可能更偏好介绍的文章,另一个用户可能会更喜欢视频的介绍。而且,没有用户喜欢单一的类型展示,或多或少都喜欢多元化的内容流类型的排列。针对同一个query,应该给不同的用户展示不同的排序结果。我们提出的个性化马尔科夫深度神经网络算法包含两个步骤,包括对用户和query的表示任务学习和坑位类型的预测学习。

用户和query的低维表示 我们构建了一个graph,包含用户,query和内容。使用node2vec学习用户和query的embedding,如下图:

image

图中的中间部分是训练节点的embedding表示。输入层是节点的独热编码。权重矩阵W是所有节点的embedding,其将节点独热编码映射到一个D维的空间中。

坑位类型预测 我们的目标函数定义为
image
其中X表示输入第i个坑位的特征,为了简化我们pMDNN模型并且加速运行的速度,我们只使用跟当前预测的坑位前一个坑位的信息。然而这带来了一个问题,如何预测第一个坑位的类型,这里我们使用到了跨领域知识,我们从用户最近在商品搜索引擎中浏览的宝贝信息中抽取将其映射为内容搜索坑位特征,使其满足当前模型的输入要求。我们的模型输入层为用户的embedding,query embedding和前一个坑位的embedding。可以表示为
image
三个全连接层接入输入层中。每一层使用一个线性分类器和交叉熵作为loss function。激活函数选择Relu,输出层应用Softmax为激活函数。

▌ 实验结果:

我们将提出的模型部署到A/B测试分桶环境中,选择了5个主要的指标来对比两个模型iMAB和pMDNN。pv代表展示内容的个数;pvclick表示展示的内容多少被点击;uv是多少个用户使用了内容搜索引擎,uv click表示多少用户点击了内容流;至于uv ctr,表示用户是否点击内容流的比率。

下表展示了实验结果,其中pMDNN的实验结果优于iMAB。尤其是uv click和uv ctr,这对于我们的场景非常重要,因为uv click的增长表示更多的用户倾向于内容搜索引擎因为其能帮助他们更好的购物。同时,uv ctr的增长展示出使用内容搜索引擎的用户对我们推荐的内容流是认可的。至于pv click的提高也代表了我们提出的模型更加的符合用户的个性化需求。

基于pv click和uv ctr,我们可以认为pMDNN应用了跨领域知识并且全局优化多坑位类型确实要优于坑位独立的iMAB。

image
原文发布时间为:2018-06-29
本文作者:阿里巴巴机器智能
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关文章
|
29天前
|
人工智能 监控 数据可视化
保姆级教程:OpenClaw阿里云部署+免费大模型API配置+18个必装神级Skills实战及避坑手册
本文基于18个神级技能精选逻辑,补充2026年新手零基础阿里云部署流程、阿里云百炼API及免费大模型API双配置方案,按“金融分析、信息获取、财务数据、办公协同”四大场景拆解技能用法,所有代码命令可直接复制执行,帮助用户快速解锁OpenClaw的全能属性,让效率直接翻10倍。
1532 7
|
计算机视觉
使用计算机视觉实战项目精通 OpenCV:1~5
使用计算机视觉实战项目精通 OpenCV:1~5
686 0
|
2月前
|
人工智能 自然语言处理 安全
2026年OpenClaw(原Clawdbot)阿里云部署入门指南:超详细喂饭级教程
在AI自动化代理工具爆发的2026年,OpenClaw(原Clawdbot、Moltbot)凭借“自然语言驱动、插件化无限拓展、全场景自动化”的核心特性,成为个人提效与轻量团队协作的首选工具。其核心价值在于无需复杂开发,仅通过简单的自然语言指令,就能调度各类技能(Skills)完成网页自动化、文件处理、代码开发、邮件管理等具象化任务,彻底解放双手、提升工作效率。
3607 9
|
机器学习/深度学习 搜索推荐 算法
【王喆-推荐系统】模型篇-(task5)wide&deep模型
Wide&Deep是工业界中有巨大影响力的模型,如果直接翻译成中文是宽和深的模型,其模型结构如下所示:wide和deep让模型兼具逻辑回归和深度神经网络的特点。
2403 0
【王喆-推荐系统】模型篇-(task5)wide&deep模型
|
12月前
|
开发框架 Java .NET
Python中main函数:代码结构的基石
在Python中,`main`函数是程序结构化和模块化的重要组成部分。它实现了脚本执行与模块导入的分离,避免全局作用域污染并提升代码复用性。其核心作用包括:标准化程序入口、保障模块复用及支持测试驱动开发(TDD)。根据项目复杂度,`main`函数有基础版、函数封装版、参数解析版和类封装版四种典型写法。 与其他语言相比,Python的`main`机制更灵活,支持同一文件作为脚本运行或模块导入。进阶技巧涵盖多文件项目管理、命令行参数处理、环境变量配置及日志集成等。此外,还需注意常见错误如全局变量污染和循环导入,并通过延迟加载、多进程支持和类型提示优化性能。
1011 0
|
消息中间件 网络协议 C#
C#使用Socket实现分布式事件总线,不依赖第三方MQ
`CodeWF.EventBus.Socket` 是一个轻量级的、基于Socket的分布式事件总线系统,旨在简化分布式架构中的事件通信。它允许进程之间通过发布/订阅模式进行通信,无需依赖外部消息队列服务。
C#使用Socket实现分布式事件总线,不依赖第三方MQ
|
机器学习/深度学习 Linux 开发者
Python必备工具:pip的安装与管理
Python必备工具:pip的安装与管理
2028 0
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之出现报错:invalid dynamic partition value: \ufffd\ufffd\ufffd\ufffd\ufffd\ufffd是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
555 0
|
Java Maven
【已解决】MAC安装maven,The JAVA_HOME environment variable is not defined correctly, this environment
【已解决】MAC安装maven,The JAVA_HOME environment variable is not defined correctly, this environment
1780 0
|
存储 JSON 数据可视化
API入门项目项目收集GitHub上热门项目的信息
API是网站的一部分,在学术领域中常用于获取数据信息。如果我们想要获取某个网站上的一些信息,可以使用API请求数据,然后对这些数据进行处理和可视化,以便更好地理解和分析数据。
455 0

热门文章

最新文章