模型原理-1| 学习笔记-阿里云开发者社区

模型原理-1| 学习笔记

2022-11-12 332

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习模型原理-1。

开发者学堂课程【机器学习算法：模型原理-1】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/535/detail/7219

模型原理-1

内容介绍

一、逻辑回归算法的介绍

二、分类变量

一、逻辑回归算法的介绍

逻辑回归算法是在回归算法的基础上进行的扩展。所以它也叫广义线性回归中的一种。它的应用范围非常广，并且有比较坚实的数学基础，十大经典算法通常都会有逻辑回归。

二、分类变量

1、基本介绍

分类变量（ Categorical Variable )：又称定性变量、离散型变量，观测的个体只能属于几种互不相容的类别中的一种，一般用非数字来表达其类别，这种数据被称为分类变量。与之相对的是连续变量，即定量变量，是由测量、计数或者统计等得到，这些变量具有数值特征。

2. 常见的分类变量

有序变量：没有数量关系，但是有次序关系。比如：年龄层次、收入等级、客户级别等。儿童、中年、青年、老年，可能没有严格的数量关系，不能说一个老年取值是一个儿童取值的几倍。

名义变量：既无等级关系，也无数量关系。比如：性别、天气、职业等。

3. 分类变量和回归分析

自变量中包含了分类变量：名义变量通常使用虚拟变量（哑变量），有序变量通过选取联系函数构建位置结构（ Location component ）模型或者规模结构（ Scale Component ）模型

因变量中包含了分类变量：就是最终预测的结果它不再是连续值了，它变成了一个分类变量，这个时候通常不满足回归分析的基本假设，需要使用新的回归方法。

4. 因变量是分类变量

因变量为分类变量,会有以下问题：

误差项非正态分布:误差分布为两点型离散分布,因为它的取值不是0就是1，不是正态分布。

误差项零均值异方差:均值为0,误差的方差依赖于自变量,会随着自变量的不同水平而变化,是异方差。

回归方程限制: ，因为 y 是0-1型随机变量。，数学期望值则，这对回归方程来讲是个特殊的限制。

针对 0-1 型因变量回归,做两方面改进:

回归函数改用限制在(0,1)之间的连续曲线,而不再是直线回归方程,常用的是 Logisitic 函数,其形式为: 因变量取值为0,1,不适合直接作为回归的因变量,因为传统的回归模型预测出来的值都是连续值，而改用因变量取1的概率 ,作为回归因变量。这个概率值它也是个连续函数，不过这个连续函数的值被限制在0到1之间了。这个时候如果用概率来作为预测的因变量值的话，实际上这个时候又可以使用回归的方法来做。