带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)

简介: 带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(5)

带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(4) https://developer.aliyun.com/article/1246884?groupCode=taobaotech



样本构造


在样本构造上,我们采取两种方案:


方案一:设定曝光PV和点击率阈值,高于阈值的为正样本,否则为负样本;

方案二:首先,根据内容曝光PV对点击率进行校正。其次,将空间x风格维度下,内容发布7天后累计点击率高于维度内平均点击率的内容为正样本,其余为负样本。


方案一在正样本的选择上更为严格,能够确保是热门的内容。方案二考虑了不同空间和风格内容下内容点击率的差异,但是可能会将维度内热门但全局非热门内容的设置为正样本。


模型结构


在Wide & Deep模型基础之上设计潜力预估模型,具体改动有两处:


1.内容封面图向量与Sparse feature的embedding进行concat,共同作为deep侧输入;

2.训练时,根据曝光PV的大小,给样本赋值不同的置信度,PV值越大,样本越置信。


image.png



离线评估


下表展示了基于上述两种方案训练的模型进行潜力预估,P(is_hot)位于top10%的内容在发布7天后在冷启结束后的自然推荐获得曝光PV的分布。


image.png

第一行的0-5是内容曝光PV的范围划定:数值越大,对应的曝光PV越高。从占比上看,方案二在潜力内容挖掘上准确性更高。




带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(6) https://developer.aliyun.com/article/1246882?groupCode=taobaotech

相关文章
|
缓存 图形学
Unity 之 关于UnityHub无法打开项目的问题(弹出Unity启动界面有退回到Hub选择工程界面)
弹出Unity启动界面有退回到Hub选择工程界面方案一:万能的重启大法;方案二:未开启许可证;方案三:终极奥义 -- 弃用Hub
4150 0
Unity 之 关于UnityHub无法打开项目的问题(弹出Unity启动界面有退回到Hub选择工程界面)
|
机器学习/深度学习 运维 搜索推荐
机器学习中准确率、精确率、召回率、误报率、漏报率、F1-Score、AP&mAP、AUC、MAE、MAPE、MSE、RMSE、R-Squared等指标的定义和说明
在机器学习和深度学习用于异常检测(Anomaly detection)、电子商务(E-commerce)、信息检索(Information retrieval, IR)等领域任务(Task)中,有很多的指标来判断机器学习和深度学习效果的好坏。这些指标有相互权衡的,有相互背向的,所以往往需要根据实际的任务和场景来选择衡量指标。本篇博文对这些指标进行一个梳理。
机器学习中准确率、精确率、召回率、误报率、漏报率、F1-Score、AP&mAP、AUC、MAE、MAPE、MSE、RMSE、R-Squared等指标的定义和说明
|
机器学习/深度学习 智能设计 自然语言处理
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(7)
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(7)
547 0
|
机器学习/深度学习 Web App开发 数据挖掘
经典神经网络论文超详细解读(七)——SENet(注意力机制)学习笔记(翻译+精读+代码复现)
经典神经网络论文超详细解读(七)——SENet(注意力机制)学习笔记(翻译+精读+代码复现)
5144 1
经典神经网络论文超详细解读(七)——SENet(注意力机制)学习笔记(翻译+精读+代码复现)
|
搜索推荐 算法
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(2)
带你读《2022技术人的百宝黑皮书》——冷启动系统优化与内容潜力预估实践(2)
446 1
html——超文本标记语言,知识点小结
html——超文本标记语言,知识点小结
278 0
|
关系型数据库 MySQL Linux
CentOS 7.6安装 MySQL8.0.25
CentOS 7.6安装 MySQL8.0.25
588 0
CentOS 7.6安装 MySQL8.0.25
|
机器学习/深度学习 资源调度 算法
推荐系统[三]:粗排算法常用模型汇总(集合选择和精准预估),技术发展历史(向量內积,Wide&Deep等模型)以及前沿技术
推荐可分为以下四个流程,分别是召回、粗排、精排以及重排: 1. 召回是源头,在某种意义上决定着整个推荐的天花板; 2. 粗排是初筛,一般不会上复杂模型; 3. 精排是整个推荐环节的重中之重,在特征和模型上都会做的比较复杂; 4. 重排,一般是做打散或满足业务运营的特定强插需求,同样不会使用复杂模型;
推荐系统[三]:粗排算法常用模型汇总(集合选择和精准预估),技术发展历史(向量內积,Wide&Deep等模型)以及前沿技术
|
机器学习/深度学习 PyTorch 算法框架/工具
深入理解二分类和多分类CrossEntropy Loss和Focal Loss
多分类交叉熵就是对二分类交叉熵的扩展,在计算公式中和二分类稍微有些许区别,但是还是比较容易理解
2609 0