模型原理-1| 学习笔记

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 快速学习模型原理-1。

开发者学堂课程【机器学习算法 :模型原理-1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7219


模型原理-1

 

内容介绍

一、逻辑回归算法的介绍

二、分类变量

 

一、逻辑回归算法的介绍

逻辑回归算法是在回归算法的基础上进行的扩展。所以它也叫广义线性回归中的一种。它的应用范围非常广,并且有比较坚实的数学基础,十大经典算法通常都会有逻辑回归。

 

二、分类变量

1、基本介绍

分类变量( Categorical Variable ):又称定性变量、离散型变量,观测的个体只能属于几种互不相容的类别中的一种,一般用非数字来表达其类别,这种数据被称为分类变量。与之相对的是连续变量,即定量变量,是由测量、计数或者统计等得到,这些变量具有数值特征。

2. 常见的分类变量

有序变量:没有数量关系,但是有次序关系。比如:年龄层次、收入等级、客户级别等。儿童、中年、青年、老年,可能没有严格的数量关系,不能说一个老年取值是一个儿童取值的几倍。

名义变量:既无等级关系,也无数量关系。比如:性别、天气、职业等。

3. 分类变量和回归分析

自变量中包含了分类变量:名义变量通常使用虚拟变量(哑变量),有序变量通过选取联系函数构建位置结构( Location component )模型或者规模结构( Scale Component )模型

因变量中包含了分类变量:就是最终预测的结果它不再是连续值了,它变成了一个分类变量,这个时候通常不满足回归分析的基本假设,需要使用新的回归方法。

4. 因变量是分类变量

因变量为分类变量,会有以下问题:

误差项非正态分布:误差分布为两点型离散分布,因为它的取值不是0就是1,不是正态分布。

误差项零均值异方差:均值为0,误差的方差依赖于自变量,会随着自变量的不同水平而变化,是异方差。

回归方程限制: image.png,因为 y 是0-1型随机变量。image.png,数学期望值则image.png,这对回归方程来讲是个特殊的限制。

针对 0-1 型因变量回归,做两方面改进:

回归函数改用限制在(0,1)之间的连续曲线,而不再是直线回归方程,常用的是 Logisitic 函数,其形式为:image.png因变量取值为0,1,不适合直接作为回归的因变量,因为传统的回归模型预测出来的值都是连续值,而改用因变量取1的概率 image.png,作为回归因变量。这个概率值它也是个连续函数,不过这个连续函数的值被限制在0到1之间了。这个时候如果用概率来作为预测的因变量值的话,实际上这个时候又可以使用回归的方法来做。

5. 因变量是分变量的例子

已知用户的收入信息,去分析用户是否会购买某产品。假设0是不购买,1是购买。如果忽略因变量取值为0或1的问题,直接使用线性回归的思路来处理,建模:image.png其中,image.png是一个二分类变量,取值为:0-不会购买;1-会购买;image.png 是连续变量,表示收入。image.png独立于残差image.png之间也无相关关系,当image.png给定时,image.png的期望值为:image.png

由于image.png的值要么为1,要么为0,因为它取0的概率乘以0就是0了,所以image.png的期望值实际上是其取1的概率。即:image.png

理解上述结论:如果在某用户的收入已知的情况下,那么其购买产品的概率就是它的数学期望。

由于最终的预测结果为某事件发生的概率,因此因变量为二分类的线性回归模型也被称为线性概率模型。(Linear Probbability Model,LPM)

计算该模型的残差:image.pngimage.pngimage.png

当 y=0 时,假设它的概率密度函数为 f,则 y=1 时的概率密度函数为 1-f,则其期望值为:

image.png

线性回归的基本假设为残差的期望值为0,即E(image.png)=0,求得:image.png将 f 代入Var(image.png)求得:image.png

说明残差不独立,它依赖于条件概率的值,即依赖于image.png的值,不同的观测值会有不同的方差,比如image.png=1和image.png=0它的方差是不一样的,它的方差齐性这一条就不满足了,即方差非齐性。

6、因变量是分类变量带来的影响

因变量的特殊性质会对线性概率模型的估计和预测带来以下影响:

⑴残差的非齐次性会导致参数估计为有偏估计,各种假设检验将会无效。

⑵线性概率模型预测的事件概率值可能会超出[0,1]的范围,违背概率常识。因为它是一个连续值,预测的时候很有可能超过0到1这个范围,和对概率的认识是相违背的,概率的取值就是0到1。

⑶线性概率模型的函数形式不能拟合自变量和因变量的关系,事实上是个非线性关系安全带。X 可能是个连续值,但 y 可能是0也可能是1,所以它并不是一个真正的非线性关系。

对于因变量为分类变量的线性概率模型:image.png,当image.png时,y=0;当image.png时,y=1;其他时候image.png才符合线性关系:image.png

如果加上强制条件,就不会出现超出0到1范围的违背常识的情况。

image.png

这是一个典型的非线性的关系。只有 x 的值在直线描述的范围内时,它才满足这个线性关系。如果 image.png,y的取值就强制等于0。如果不等于0还是按照线性关系作延长线的话,那事情发生的概率的取值就小于0了;如果image.png 这个范围内,它是满足线性关系的;

如果image.png,y 的取值就强制等于1,否则也违背对概率的认识。事件发生的概率等于1了,这个是违背概率尝试的。这个分段函数就描述了如果因变量是分类变量的时候拟合函数的情况。

相关文章
|
15天前
|
机器学习/深度学习 自然语言处理 语音技术
Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧
本文介绍了Python在深度学习领域的应用,重点讲解了神经网络的基础概念、基本结构、训练过程及优化技巧,并通过TensorFlow和PyTorch等库展示了实现神经网络的具体示例,涵盖图像识别、语音识别等多个应用场景。
39 8
|
2月前
|
机器学习/深度学习 自然语言处理 算法
数据准备指南:10种基础特征工程方法的实战教程
在数据分析和机器学习中,从原始数据中提取有价值的信息至关重要。本文详细介绍了十种基础特征工程技术,包括数据插补、数据分箱、对数变换、数据缩放、One-Hot编码、目标编码、主成分分析(PCA)、特征聚合、TF-IDF 和文本嵌入。每种技术都有具体应用场景和实现示例,帮助读者更好地理解和应用这些方法。通过合理的特征工程,可以显著提升模型的性能和预测能力。
102 3
数据准备指南:10种基础特征工程方法的实战教程
|
7月前
|
机器学习/深度学习 数据可视化
模型性能评价实战
模型性能评价实战
|
机器学习/深度学习 人工智能 算法
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析
|
分布式计算 监控 算法
Pregel模型原理
Pregel模型原理
349 0
|
机器学习/深度学习 算法 数据可视化
机器学习基础——k-近邻算法概述和简单实现
本章介绍第一个机器学习算法:k-近邻算法,它非常有效而且易于掌握。首先,我们将探讨k-近邻算法的基本理论,以及如何使用距离测量的方法分类物品;其次我们将使用Python从文本文件中导人并解析数据。
181 0
机器学习基础——k-近邻算法概述和简单实现
|
机器学习/深度学习 算法 计算机视觉
自动数据增强论文及算法解读(附代码)
自动数据增强论文及算法解读(附代码)
自动数据增强论文及算法解读(附代码)
|
机器学习/深度学习 算法 数据挖掘
【阿旭机器学习实战】【12】决策树基本原理及其构造与使用方法
【阿旭机器学习实战】【12】决策树基本原理及其构造与使用方法
【阿旭机器学习实战】【12】决策树基本原理及其构造与使用方法
|
机器学习/深度学习 人工智能 自然语言处理
机器学习入门:概念原理及常用算法
机器学习入门:概念原理及常用算法
184 0
机器学习入门:概念原理及常用算法
|
机器学习/深度学习 算法 开发者
模型原理-2| 学习笔记
快速学习模型原理-2。
模型原理-2| 学习笔记

热门文章

最新文章