强化学习在锦囊位置调控上的探索和实践

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 1. 背景     在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。

1. 背景

    在手淘的搜索中,当用户输入query进行搜索之后,一方面有适合他的商品展现出来,另一方面,如何更好地理解用户意图,为其推荐更合适的关键词进行细分查找,从而更高效的引导用户到他想找的商品,也是一件非常重要的事情。
    因此在手淘搜索场景下,我们以“锦囊”这种产品形态来承载对用户意图的理解和细分,关于锦囊更完整的介绍请见: https://www.atatech.org/articles/80706   。同时锦囊的内容也分了不同的类型,比如从标题抽取出来的tag标签,相关搜索,以及和query相关的品牌和其它的各种属性值,如裙长,袖长等。如下图所示:
36b083d475269eca2185907c473fa4198ff3ff5a 681571f1962f4c3222b81fdd9bdb40619c88fa32 438fbf70d3ad56c65d2d7c26b4b58e4cb04c0b57 72776818a0c44a539df4639922e9b6e299ba1efb
    在这里,我们主要解决的问题是如何根据用户的历史以及实时行为,在当前query下,为他推荐更合适的锦囊类型,比如有的用户对品牌感兴趣,有的用户对风格感兴趣,那么就会根据实时的信息,在合适的页面展现合适的锦囊类型。以提高用户对锦囊的点击率,进而提升引导效率。

2. 系统框架

    整个强化学习位置调控是一个在线实时训练的过程,其框架图如下所示:
c0ba78120ccd3d772bcd0daa01c9c444de1a1c0d
    porsche:Porsche,是一个强大的机器学习平台,更多介绍可参考: http://porsche.alibaba-inc.com  ,我们的实时日志处理,以及强化学习的实时训练均跑在porsche平台上,通过porsche平台,输出两个数据,一是强化学习的模型参数,直接写入dii引擎内存中,二是用户的实时行为序列,写入igraph中
    锦囊模块:在判断具体出什么类型的锦囊时,需要的数据有用户的实时行为序列,从igraph中获取,同时还要从dii内存中获取强化学习的模型参数,然后综合判断当前需要出的锦囊类型。同时在当前session下,还需要实时的将已经出现过的类型写入igraph中,当用户再次翻页的时候,不会出现重复的锦囊类型。

3. 基于强化学习的建模

3.1 强化学习简介

     强化学习主要是通过与环境交互中的trail-and-error,来不断找到能使得累计奖赏最大的策略一种学习方法。
    在Model-Free的强化学习中,主要有两类方法,一类是Value-Based的方法,即利用值函数估计来选择最优的动作(比如Q(s,a)),也相应得到了更优的策略,比如Q-learning,SASAR,DQN等,另一类是Policy-Based的方法,采用直接优化策略的方法,比如TRPO,A3C等。 我们在锦囊调控的任务中主要使用过A3C,DQN两种方法。
1. DQN
    DQN是DeepMind在用DRL探索Atari游戏时提出的,其主要框架就是在传统的Q-learning方法中引入了DNN(CNN)来进行学习,并在此基础上加入了Experience Replay,Targrt Network等技巧,并在很多游戏上达到甚至超过人类玩家水平。在之后的几个工作里,也进行了进一步的完善和提高(Prioritised Replay, Double DQN,Duelling Network等等)。其中Nature版本的DQN伪代码如下所示:
76743fec351a3f3724f6a90ee471a55a42c571c8

2. A3C
    A3C算法的全称是asynchronous advantage actor-critic,其中actor-critic是在一般的policy-based方法中,也引入了值函数估计的方法来减少方差,如下图:
3f37e32aba72b0e3cafc248d9cdb6ba8716e977c
    而在利用bias term技术来减小方差时,采用了Advantage function来作为bias: 
26f750ad68b4bcf1b201e0d6be47c6e817810cf6
    算法基本逻辑如下图:
d90dba2bcc7d6bc125f08a590e69735b6519a79c

3.2 问题建模及实现

    当用户在搜索中发出一个query,看到页面,把当前页面下用户的一些特征作为此时的状态,我们要学习的策略就是在这种状态下应该给出什么类型锦囊,从而转移到下一个页面下,reward也应该根据目标进行设定。
     1. state
    我们设计State能包含用户在当前query下的特征以及此时的实时特征,主要有:

    1.1长期特征
    User 特征:性别,年龄,购买力等;
    User 历史上对锦囊综合的以及各类型锦囊的展现点击等情况;
    Query的特征;
    当前Query下锦囊综合的以及各类型锦囊的展现点击等点击情况;
    ……
    1.2实时特征
    当前所在Page;
    当前页之前用户最近100次 PV中对各类型的点击情况;
    用户最近五个动作类型(点击,浏览,购买等);
    用户最近点击的五个商品的特征;
    ……
    2.动作
    我们学习的目标就是在当前页,对于特定用户状态,出什么类型的锦囊,因此这里我们直接把要出的锦囊类型作为动作。如下图:

a9d971e5e63bb54bd30d1ae0d31b54f6358c56ec

     3. 奖赏函数
    Reward Function决定了我们想要引导锦囊agent去优化的方向,也即是优化目标。当我们设定了不同的目标时,reward应该做出相应的调整: 单纯最大化锦囊的CTR时,可以有类似下面的设定(其中,x表示当前query下点击的锦囊的页码)
16eda13f628a28d7369d478e7f7a1fa3ec17675a

    再结合引导成交等需求,可以有类似如下的设定:(其中,y, z, I代表翻页页数,点击次数,是否购买)
14f45424aa57e9db0d7c171b6781ba7494741caf

3.3 学习算法

1. A3C
    锦囊候选类型,一开始没有引入属性pid类型,锦囊类型只有有限的几种,如相关搜索、选购热点、细选等,因此我们采取了A3C算法,直接把类型当做动作,用critic网络来学习值函数,用Actor网络来学习policy,actor网络最后输出的值经过softmax可以认为是采取各个动作的概率值,Actor网络形式如下所示:
e8d031916c4a91f937fba7e358a99dfd5058124b
2. DQN
    当我们把属性pid引入到锦囊中后,候选的锦囊类型(即动作)一下子增加到两万多种。如果我们还是采用之前的A3C方法,网络的输出需要有两万多个节点,显然是不适用的。因此,我们采取了用DQN+类型ID Embedding的形式来进行学习。也就是说,对每一个候选动作a,先进行embedding,再和s过来的节点进行concat,之后学习的就是他们的Q值,然后再每一个具体query下进行选择的时候,计算每一个可选的ID的Q value,从而进行决策,这里只用到了一个网络。如下图:
f7a9f3abdf0fce952a9b7a0a07c605f795b2eb3b

4. 算法改进

4.1 Stratified Sampling Replay

    由于我们获取的是实时数据,这就可能导致不同的时间段获取到的用户分布差异较大,从而实时学习的模型对受到数据的影响,导致学习方差加大。
    为了减弱这一影响,可以利用Stratified Sampling技术。比如,可以对用户的年龄分布,性别分布,购买力分布进行统计,获取一个较为稳定的比例。之后,在一般的random replay的基础上做一些改变,每次的采样遵循此比例进行分层的采样方法,使得样本更加的稳定,学习的方差也会更小。

4.2 基准桶实时CTR修正

    除了用户群体分布变化之外,每一天不同时间段的用户总数,用户使用习惯也会发生变化,从而导致了非模型引发的reward变化(模型没有变化,整体CTR发生提高,reward提高,而误认为是模型的正向作用),这就使得学习的评价指标不稳定,可能产生波动的情况。
    因此,我们加上了一个比较基准,利用kmonitor实时的统计基准桶里面的用户行为,CTR等信息,利用此来修正reward,比如可以设置为: reward=原始reward-基准桶reward(强迫模型朝着比基准桶更好的方向发展,而不是受一天中不同时间段的影响)。

4.3 引入Thompson Sampling

    在采样方法上,在传统强化学习的方法之外,也尝试了Thompson Sampling的方法,该方法主要是去维持每一个类型beta分布来进行学习。

5. 效果与展望

5.1 效果

    在采取了上述方法后,与基准桶相比,线上的CTR和使用UV得到了一定程度的提升(10个点左右)。

5.2 思考

    这是一次RL在此类任务上的探索,应该说至少证明了RL是可以胜任这类问题的,不过由于目前每一个query下候选的锦囊类型过少,直接采用一般的监督学习方法,CTR预估等应该就可以达到比较好的结果。
    另外,综合考虑,直接决定与用户交互的词语,内容,可能是更好的选择,更加能给用户提供帮助。后续锦囊这个产品可以考虑引入更多的交互,这一块用DL+RL也能很自然的得到一定的结果。

6. 参考文献

Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT press, 1998.
Mnih, Volodymyr, et al. "Playing atari with deep reinforcement learning." arXiv preprint arXiv:1312.5602 (2013).
Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533.
Mnih, Volodymyr, et al. "Asynchronous methods for deep reinforcement learning." International Conference on Machine Learning. 2016.
Schulman, John, et al. "Trust region policy optimization." Proceedings of the 32nd International Conference on Machine Learning (ICML-15). 2015 
目录
相关文章
|
算法
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
基于模态凝聚算法的特征系统实现算法的自然激励技术(Matlab代码实现)
130 0
|
机器学习/深度学习 人工智能 前端开发
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋
强化学习:基于蒙特卡洛树和策略价值网络的深度强化学习五子棋
|
机器学习/深度学习 算法
【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制
【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制
112 0
【5分钟paper】基于强化学习的策略搜索算法的自主直升机控制
|
机器学习/深度学习 人工智能 算法
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
强化学习从基础到进阶-常见问题和面试必知必答[2]:马尔科夫决策、贝尔曼方程、动态规划、策略价值迭代
|
机器学习/深度学习 传感器 算法
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
北大&北航团队揭示电子转移规律,深度学习定量预测96种元素在任意压力下的电负性
175 0
|
机器学习/深度学习 存储 人工智能
深度强化学习-运动规划(2)|学习笔记
快速学习深度强化学习-运动规划(2)
深度强化学习-运动规划(2)|学习笔记
|
机器学习/深度学习 移动开发 人工智能
深度强化学习-运动规划(3)|学习笔记
快速学习深度强化学习-运动规划(3)
深度强化学习-运动规划(3)|学习笔记
|
机器学习/深度学习 人工智能 算法
深度强化学习-运动规划(1)|学习笔记
快速学习深度强化学习-运动规划(1)
深度强化学习-运动规划(1)|学习笔记
|
人工智能 算法 芯片
精度最高「智能线虫」诞生,可动态蠕动前行,人造智能生命研究向前一步
天宝 1.0 是天演人工智能生命模拟工程的第一步。
177 0
精度最高「智能线虫」诞生,可动态蠕动前行,人造智能生命研究向前一步
|
人工智能 大数据
AI数学基础之:概率和上帝视角
AI数学基础之:概率和上帝视角