带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(3)

简介: 带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(3)

带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(2) https://developer.aliyun.com/article/1246867?groupCode=taobaotech



UT行为日志解析


首先根据event_id,args,arg1以及trackkey,trackinfo等字段从UT日志流中过滤出业务所需的曝光和点击日志,并按一定格式写入TT用于在PyPorsche构建event。


以下是解析得到曝光日志并写入TT流的Blink代码片段,table中的字段可以根据实际需要更改:


create table r_ihome_lapp_content_expo
(
 pvid VARCHAR,
 user_id VARCHAR,
 item_id VARCHAR,
 server_timestamp VARCHAR
) with (
 type='tt',
 topic='dwd_ihome_lapp_content_expo_sample',
 accessKey=''
);
INSERT INTO r_ihome_lapp_content_expo
select * FROM XXX WHERE YYY;


特征全埋点


在上一环节可以获取到业务场景内产生的曝光TT流和点击TT流,但ODL模型的训练除了需要userid,itemid,label等基本信息外,还需要对应user侧,item侧以及context侧特征。利用AMC特征中心的特征全埋点功能可以对线上参与打分的现场特征进行完整记录并落盘到TT中。


ODL 训练样本生成


上述两个环节完成后可以得到业务内的曝光点击以及全埋点特征TT流,接下来还需要将这些流数据按一定的规则进行关联,并产生最终可供ODL模型训练使用的流样本。


PyPorsche将ODL样本构建拆分为3个主要流程,分别为:

1. event流程构建

2. 流式样本骨架构建

3. ODL swift 样本构建


每一个流程环节只需要编写若干行Python代码即可完成开发。


带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(4) https://developer.aliyun.com/article/1246864?groupCode=taobaotech

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
相关文章
|
缓存 Java 数据库连接
|
机器学习/深度学习 资源调度 算法
【机器学习基础】对数几率回归(logistic回归)
【机器学习基础】对数几率回归(logistic回归)
1160 0
CentOS7编译安装openssl1.1.1
centos7默认提供的openssl版本是1.0.2的,想要升级openssl版本则需要手动进行编译
|
人工智能 自然语言处理 物联网
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
中文LLaMA模型和指令精调的Alpaca大模型:中文数据进行二次预训练,进一步提升了中文基础语义理解能力
|
存储 网络安全 文件存储
NAS与云存储哪个更适合家庭使用?
【6月更文挑战第30天】NAS与云存储哪个更适合家庭使用?
1281 58
|
Java Go 开发者
|
算法 安全 NoSQL
详解高性能无锁队列的实现-2
详解高性能无锁队列的实现
462 0
|
算法
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)
241 0
带你读《2022技术人的百宝黑皮书》——基于特征全埋点的精排ODL实践总结(1)

热门文章

最新文章