带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4) https://developer.aliyun.com/article/1243257?groupCode=taobaotech




匹配质量检验


鉴于我们基于倾向分做匹配,需要检测其他特征在实验组与对照组之间的分布是否相近。


理论依据:因为 image.png,在给定image.png 的情况下, image.pngimage.png应该相互独立。也就是说image.png倾向得分相同时, 的分布应该趋近一致。


可量化的指标——标准化偏差 Standardised Bias


通过标准化偏差我们可以衡量 image.png在实验组与对照组分布的差异大小,通常我们认为低于5%的偏差是可以接受的(当然越小越好)。


image.png


我们也可以在匹配前后分别计算该值,去看看通过匹配让Standardised Bias减少了多少。


对样本均值的假设检验——T检验


我们也可以通过双侧T检验去判断两组的变量均值 image.png是否有显著差异。缺点是匹配前后偏差的减少量无法很直观的感受到。进一步的,我们也可以基于倾向分先做一个分层,再进行T-Test。这样可以看到不同分值下匹配的质量。


联合显著性/伪image.png


另一种思路是我们把特征 image.png当作自变量,是否干预当作因变量,计算判定系数 image.png在完成匹配后,两组间的协变量 image.png 应该不存在系统性差异(即无法通过 image.png预测是否干预),从而 image.png应该很低。类似的,可以对所有变量做一个联合F-Test,匹配有效的话,匹配后会拒绝假设(即解释变量对被解释变量的共同影响不显著)。


除此之外,我们可以通过QQplot的可视化、计算匹配后两组方差的比值、计算匹配前后倾向分偏差减小量等方式衡量匹配质量。但总体来说还是推荐前两种方式——计算SB和T检验,兼具了可解释性和可量化性。假如匹配的质量达不到要求,那么我们就要回到上一步对匹配算法进行调整。


匹配结果+增量计算


示例数据均为虚拟构造数据,仅用于参考说明方法。


匹配结果示例


匹配之后,常见的趋势会如下图一所示:


1. 在干预之前,匹配后的实验组和对照组呈现几乎相同或平行的趋势(匹配质量较好的情况下)

2. 在干预后,两组用户在目标指标上会开始出现差异,可以认为是干预带来的影响


image.png


增量计算


因为满足平行趋势假设,我们可以用双重差分法(DID)去计算干预带来的增量;需注意的是,计算实验组与对照组的差异时,我们通常需要取一段时间的均值,避免波动带来的影响。


最终得到的结论类似于:用户在购买商品后,能够给来访率带来1.5%(30天日均)的提升。




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6) https://developer.aliyun.com/article/1243254?groupCode=taobaotech

相关文章
|
10月前
|
安全 Java 编译器
Java 校招面试题目合集及答案 120 道详解
这份资料汇总了120道Java校招面试题目及其详细答案,涵盖Java基础、JVM原理、多线程、数据类型、方法重载与覆盖等多个核心知识点。通过实例代码解析,帮助求职者深入理解Java编程精髓,为校招面试做好充分准备。无论是初学者还是进阶开发者,都能从中受益,提升技术实力和面试成功率。附带的资源链接提供了更多学习材料,助力高效备考。
580 3
|
10月前
|
机器学习/深度学习 人工智能 机器人
面向人机协作任务的具身智能系统感知-决策-执行链条建模
本文探讨了面向人机协作任务的具身智能系统建模,涵盖感知、决策与执行链条。具身智能强调智能体通过“身体”与环境互动,实现学习与适应,推动机器人技术升级。文章分析了其关键组成(感知、控制与决策系统)、挑战(高维状态空间、模拟鸿沟等)及机遇(仿真训练加速、多模态感知融合等)。通过代码示例展示了基于PyBullet的强化学习训练框架,并展望了通用具身智能的未来,包括多任务泛化、跨模态理解及Sim2Real迁移技术,为智能制造、家庭服务等领域提供新可能。
面向人机协作任务的具身智能系统感知-决策-执行链条建模
|
缓存 Java 程序员
一个 Python 对象会在何时被销毁?
一个 Python 对象会在何时被销毁?
270 2
|
关系型数据库 MySQL Linux
Linux命令systemctl详解
`systemctl`是Linux系统用于管理systemd服务的核心命令,它与systemd守护进程交互,实现启动、停止、重启服务及查看服务状态等功能。主要参数包括`start`、`stop`、`restart`、`status`、`enable`和`disable`等。例如,启动Apache服务使用`systemctl start httpd.service`,查看服务状态用`systemctl status <service>`。使用时需注意权限,服务名通常以`.service`结尾,但命令中可省略。最佳实践包括利用tab键补全、定期查看服务状态和合理配置服务自启。
|
API
大模型应用实战技巧:大模型说‘抱歉,我无法完成您的要求‘怎么办 - 你真的了解你给大模型的Prompt吗
大模型应用实战技巧:大模型说‘抱歉,我无法完成您的要求‘怎么办 - 你真的了解你给大模型的Prompt吗
2344 0
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
464 0
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
222 0
|
SQL 机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
732 0
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
443 0
|
机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
273 0

热门文章

最新文章