带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(5)

简介: 带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(5)

带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(4) https://developer.aliyun.com/article/1246864?groupCode=taobaotech



ODL swift 样本构建


ODL模型训练样本构建环节需要将backbone中的相关字段进行提取并转化为模型训练要求的格式。另外,为了方便复用原来的批模型(基于xDeepCTR的单source多label形式),我们采取的是在单数据源中包含多目标样本的方式,所以还需要在这个环节将多个目标的label字段拼接到features字段中,使得模型能够识别。


在最后的sink环节定义的swift name就是ODL模型训练任务中数据源swift_topic。为了便于验证样本的正确性,可以将一定比例的样本写入TT回流到ODPS中进行离线数据分析。


下面是对backbone进行LG并产生swift样本的代码片段:


backbone = session.get_table(BACKBONE_NAME)
# lg
wide_table = backbone.select('*, event_'+EVENT_NAME_FULL_TRACK+'_features as features')
wide_table = wide_table.join_lateral(Lg('*', lgClass='com.alibaba.pyporsche.ihome.IhomeLappClickLG'))
wide_table = wide_table.filter("features IS NOT NULL")
wide_table = wide_table.with_column(AddLabelToFeatures('features,label', label_name="click_label").as_('features'))
# fg
wide_table = wide_table.select('event_id as uniqueId, features, label, type')
# sink tt
tt_sink = TTSink(TT(topic='ihome_lapp_rank_sample_tt', access_key=''),
 line_separator='\n', field_separator='\t')
tt_sink = session.register_table(tt_sink)
wide_table.filter('rand() < 0.1').insert(tt_sink)
# swift sink
swift_sink = session.register_table(SwiftSink(Swift('ihome_lapp_rank_sample_event')))
wide_table.insert(swift_sink)


样本质量监控


AMC算法质量监控中心提供了流样本的监控功能,在这里可以观测到样本的产出延迟,消费延迟和样本比例以及特征的取值统计等信息。


image.png



带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(6) https://developer.aliyun.com/article/1246861?groupCode=taobaotech

相关文章
CentOS7编译安装openssl1.1.1
centos7默认提供的openssl版本是1.0.2的,想要升级openssl版本则需要手动进行编译
|
机器学习/深度学习
阿里妈妈首提AIGB并实现大规模商业化落地,将在NeurIPS 2024正式开源Benchmark
阿里妈妈提出AI-Generated Bidding(AIGB)新范式及DiffBid生成式竞价模型,突破传统基于强化学习的自动竞价方法局限。AIGB将自动竞价视为生成问题,通过捕捉复杂依赖关系,提升长期规划和随机环境中的稳定性和效果。DiffBid基于条件扩散建模,灵活生成满足特定目标的竞价轨迹,显著提升GMV和ROI。实验结果表明,DiffBid实现了2.81%的GMV增长和3.36%的ROI增长。然而,生成式建模的复杂性也带来了训练和调优的挑战。 论文链接:https://arxiv.org/abs/2405.16141
635 9
|
机器学习/深度学习 搜索推荐 算法
深度学习推荐模型-DIN
Deep Interest Network(DIN)是盖坤大神领导的阿里妈妈的精准定向检索及基础算法团队,在2017年6月提出的。 它针对电子商务领域(e-commerce industry)的CTR预估,重点在于充分利用/挖掘用户历史行为数据中的信息。
1501 1
深度学习推荐模型-DIN
|
敏捷开发
软件设计中常用的开发模型
软件设计中常用的开发模型
808 1
|
索引 Python
python使用elasticsearch的详细过程
python使用elasticsearch的详细过程
1103 1
|
分布式计算 监控 NoSQL
图数据库 Nebula Graph 是什么
图数据库 Nebula Graph 是什么?本文将带你了解它的特性和功能,并提前揭秘部分 Nebula Graph 1.0 功能
3950 0
|
Swift
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(6)
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(6)
339 0
|
算法 安全 NoSQL
详解高性能无锁队列的实现-2
详解高性能无锁队列的实现
462 0
|
消息中间件 存储 缓存
消息队列之 MetaQ 和 Kafka 区别和优势详解
本篇文章介绍MetaQ和Kafka这两个消息队列的区别和优势。
|
机器学习/深度学习 算法 决策智能
多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解
多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解
3576 0

热门文章

最新文章