深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例

简介: 本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。

在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的一种基本技术是双变量投影 bivariate projection。它依赖于二元正态分布的概念,所以又被称为二元投影。这种技术允许我们根据另一个变量来检验和预测一个变量的行为,利用它们之间的依赖结构,所以在本文中我们统一将其翻译为二元投影。

二元投影有助于确定在给定另一个变量的特定值时的一个随机变量的期望值。例如,在线性回归中,投影有助于估计因变量如何随自变量变化而变化。

本文分为3个部分:在第一部分,我将探讨二元投影的基础知识,推导其公式并演示其在回归模型中的应用。在第二部分,我将提供一些关于投影的直观理解和一些图表,以更好地理解其含义。在第三部分,我将使用投影来推导线性回归的参数。

1、二元正态投影公式

Z 是一个随机向量,服从正态二元分布 N(μ, Σ) ,其中

Z的形式中X和Y是服从正态单变量分布的随机变量

上面公式是Z的均值和协方差矩阵的形式,用X和Y的均值和方差表示。ρ是X和Y之间的相关性。

那么,给定 X = xY 的条件分布是正态的,由以下公式给出:

(在文章末尾的附录会有完整的推导流程)

这是一个正态分布的密度函数,其条件均值为

条件方差为

现在我们可以写出 YX 上的线性投影,即给定 X = xY 的条件均值:

这是 YX 之间的线性关系,因为它是 YX 上的线性投影。

这个公式告诉我们什么?我们可以在实际应用中如何使用它?

2、解释和模拟

二元投影在预测建模中起着至关重要的作用,它允许我们根据一个变量的值来估计另一个变量的期望值。这里将使用线性回归做一个实际的例子。

除了预测能力外,二元投影还提供了关于两个变量之间关系的性质和强度的宝贵信息。二元投影的另一个机器学习应用是检测异常或离群值。通过投影,这个过程变得更容易管理,因为它突出了变量之间预期关系的偏差。

在使用线性回归做实际例子之前,我们先运行一些Python模拟,以更好地突出二元正态分布的形式以及通过其投影可以做什么事情。

在以下图表中,随机变量 XY 服从标准正态分布 N(0, 1) 。我们将看到当设置不同的相关性 ρ 值时,图表如何变化。

一个极端情况可能是设置 ρ = 0 ,这意味着两个随机变量不相关:

两个随机变量以其均值 0 为中心,它们的散点图呈圆形。这表明变量是独立的。变量之间没有明显的线性关系。下面的3D图中,可以更好地看到到分布的形式。

现在让我们应用投影公式,看看对于不同的 X = x 值, Y 的分布会发生什么变化。

Y 的分布不受不同 x 值的影响。Y 的均值和方差却保持不变。

现在让我们看看对于一个更有意义的相关性会发生什么。让我们设置 ρ = 0.9

两个变量的均值仍然以 0 为中心,但散点图显示了明显的线性关系。3D图如下,可以看到现在分布不再像前面的例子那样呈现"圆锥"形。

绘制投影,我们现在可以看到 Y 的分布实际上受到不同 x 值的影响。有趣的是, Y 的均值依赖于 x (因为其值取决于 xμX_ 之间的差异),而 Y 的方差不随 x 变化 ,因为它只依赖于相关性 ρ 。此外, 方差比 ρ=0 的情况小 ,因为它随 1-ρ² 缩放。

最后一种情况是 ρ = -0.9 与前一种情况非常相似:

3、应用 - 线性回归

现在让我们将投影应用到一个简单的机器学习案例:线性回归。假设我们想建立一个机器学习模型,使用房屋面积(X 变量)的值来预测房屋价格(Y 变量)。我们有一个包含 XY 的历史数据集。

假设变量的分布如下,并且它们有线性关系:

我们建立一个模型,能够根据 X 的特定值预测 Y 的值:

其中beta代表线性回归的系数,就像通常的情况:

使用投影公式

通过这种方式,我们可以使用(从数据集估计的)分布参数来估计线性回归系数。首先两个表达式:

重新排列右侧的项,以分离乘以 x 的项和不乘以 x 的项:

为了使等式成立,参数应该是:

这些就是线性回归参数的估计量!

附录:二元线性投影推导

让我们从定义两个随机变量 XY联合密度函数开始:

参考:https://web.stanford.edu/class/archive/cs/cs109/cs109.1218/files/student_drive/5.9.pdf

计算协方差矩阵的行列式:

和协方差矩阵的逆:

参考:https://math.stackexchange.com/questions/21533/shortcut-for-finding-a-inverse-of-matrix#:~:text=For%20a%202x2%20matrix%2C%20the,'%2C%20just%20memorize%20that%20pattern.

将此代入密度函数的表达式,我们得到:

现在,正态二元分布的边际概率密度函数是正态单变量。X 的边际函数由以下公式给出:

参考:https://en.wikipedia.org/wiki/Marginal_distribution

现在我们可以计算给定 X=xY 的条件分布。注意,这仍然是正态的:

参考:https://en.wikipedia.org/wiki/Conditional_probability_distribution

代入联合密度函数和边际密度函数得到投影密度

投影公式现在是给定 X = xY 的期望,可以通过积分投影密度函数来计算。指数内的二次项可以解释为随机变量减去其均值。在这种情况下,均值是 mu_Y 偏移 了依赖于 x 的项。在上面绘制分布时也看到了这种效果。方差由 1-ρ²**缩放

分布的期望值

这就是二元投影的全部退大过程。

总结

线性投影是统计学中一个强大的工具。它的应用非常广泛,从数据降维到回归分析,再到信号处理,线性投影都发挥着重要作用。在数据分析中,线性投影可以帮助我们将高维数据映射到低维空间,从而简化问题的复杂性,使得模型更易于解释。线性投影在回归模型中用于预测和估计目标变量的值。通过这些应用,线性投影不仅提高了数据处理的效率,还增强了我们对数据背后规律的理解。

参考文献

[1] Joel Hasbrouck (2007). Empirical Market Microstructure, Chapter 7

[2] Alex Tsun, Probability & Statistics with Applications to Computing, Chapter 5.9
https://avoid.overfit.cn/post/4e271aed9ee94b0db6e11b94553d63e2

作者:Luigi Battistoni

目录
相关文章
|
并行计算 算法 搜索推荐
Speccpu2017分数的一点介绍
对Spec2017的speed和rate分数做点介绍
4499 0
|
5天前
|
弹性计算 人工智能 搜索推荐
阿里云服务器租用费用:最新价格整理,38元一年起
阿里云服务器优惠汇总:轻量应用服务器200M带宽38元/年起,ECS云服务器2核2G 99元/年,2核4G 199元/年,4核16G 89元/月,8核32G 160元/月,香港轻量服务器25元/月起。支持按小时计费,爆款低至1折,新老用户同享,续费同价,配置丰富,适合建站、游戏、AI等多种场景。
|
9月前
|
人工智能 数据安全/隐私保护
什么样的“软技能”可以跨越周期、终身成长?
在快速变化的数字化时代,软技能成为职场人士实现终身成长的关键。本文探讨了学习能力、适应能力、沟通能力、领导力和创新思维等跨越周期的软技能,并介绍了生成式人工智能(GAI)认证作为提升软技能的新途径。GAI认证不仅涵盖技术知识,还强调软技能培养,助力职场人士增强竞争力、促进职业发展,同时强化道德与合规意识。通过系统学习与实践,个人可在未来职业生涯中脱颖而出,实现持续成长。
|
机器学习/深度学习 人工智能 自然语言处理
智能语音识别技术在多语言环境下的挑战与优化策略###
随着全球化的加速推进,智能语音识别技术作为人机交互的关键一环,其跨语言适应性成为了研究热点。本文深入探讨了智能语音识别技术在多语言环境下面临的挑战,包括口音差异、词汇多样性、语法结构复杂性等,并提出了相应的优化策略。通过对比分析不同算法和技术路线,本文旨在为提升智能语音识别系统的跨语言性能提供理论依据和实践指导。 ###
|
7月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
1218 2
|
消息中间件 监控 Java
RocketMQ 同步发送、异步发送和单向发送,如何选择?
本文详细分析了 RocketMQ 中同步发送、异步发送和单向发送三种消息发送方式的原理、优缺点及适用场景。同步发送可靠性高但延迟较大,适合订单系统等场景;异步发送非阻塞且延迟低,适用于实时数据处理等场景;单向发送高效但可靠性低,适用于日志收集等场景。文章还提供了示例代码和核心源码分析,帮助读者更好地理解每种发送方式的特点。
2116 4
|
安全 Java Apache
Java中的数据安全与隐私保护技术
Java中的数据安全与隐私保护技术
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架,基于大型语言模型,能够加速科学发现、降低成本并提高研究质量。
1001 23
Agent Laboratory:AI自动撰写论文,AMD开源自动完成科研全流程的多智能体框架
|
数据挖掘 程序员 数据安全/隐私保护
解锁PDF潜力:9个Python库让你的文档处理更高效
程序员晚枫分享了Python处理PDF的9个第三方库,包括PyPDF2、pdfrw、ReportLab、pikepdf、pdfplumber、pdfminer.six、PyMuPDF、popdf和borb,各具优缺点。选择时需考虑应用场景、功能需求、库的维护状态和开源协议。例如,pdfplumber擅长内容提取,而ReportLab和PyMuPDF适用于创建和修改内容。
2443 7
|
SQL 缓存 数据库
SQL慢查询优化策略
在数据库管理和应用开发中,SQL查询的性能优化至关重要。慢查询优化不仅可以提高应用的响应速度,还能降低服务器负载,提升用户体验。本文将详细介绍针对SQL慢查询的优化策略。