机器学习之——判定边界和逻辑回归模型的代价函数

简介: 判定边界(Decision Boundary) 上一次我们讨论了一个新的模型——逻辑回归模型(Logistic Regression),在逻辑回归中,我们预测: 当hø大于等于0.5时,预测y=1当hø小于0.5时,预测y=0根据上面的预测,我们绘制出一条S形函数,如下: 根据函数图像,我们知道,当  z=0时,g(z)=0.5 z>0时,g(z)

判定边界(Decision Boundary)

上一次我们讨论了一个新的模型——逻辑回归模型(Logistic Regression),在逻辑回归中,我们预测:

  • 当hø大于等于0.5时,预测y=1
  • 当hø小于0.5时,预测y=0
根据上面的预测,我们绘制出一条S形函数,如下:


根据函数图像,我们知道,当

  •  z=0时,g(z)=0.5
  •  z>0时,g(z)>0.5
  •  z<0时,g(z)<0.5
又有:


所以


以上,为我们预知的逻辑回归的部分内容。好,现在假设我们有一个模型: 并且参数ø是向量 :[-3 1 1]。那么当-3+x1+x2大于等于0,即x1+x2大于等于3时,模型将预测 y=1。

我们可以绘制出来x1+x2=3,这条线便是我们模型的分界线,也称之为判定边界(Decision Boundary),将预测为1的区域和预测为0的区域分隔开。


假设我们的数据呈现出如下图的分布情况,那么我们的模型是什么样才能适合这些数据呢?


如上图,函数图像为一个圆,圆点在原点且半径为1,这样一条曲线来分隔开了 y=1 和 y=0 的区域,所以我们需要的是一个二次方特征:


假设参数为 [-1  0  0  1  1],则我们得到的判定边界恰好是圆点在原点并且半径为1的圆形。

我们可以使用非常复杂的模型来适应非常复杂形状的判定边界。


逻辑回归模型的代价函数(Cost Function)

对于线性回归模型,我们定义的代价函数是所有模型误差的平方和。理论上讲,我们也可以沿用这个定义来对逻辑回归模型使用,但是问题在于,当我们将:

代入到这样定义的代价函数中时,我们得到的代价函数将会是一个非凸函数(Non-covex Function)


这意味着,我们的代价函数将会有许多的局部最小值,这就会影响到梯度下降算法去找寻全局最小值。

因此,我们重新定义逻辑回归的代价函数为:


其中,Cost(hø(x(i), y(i))) 是我们定义的一个代价函数迭代形式,具体表示如下:


hø(x) 与 Cost(hø(x),y)之间的关系是如下图所示:


通过这样构建的Cost(hø(x), y)函数的特点是:

当实际的 y=1 且 hø=1 时,误差为0;当  y=1 但 hø != 1时,误差随hø的变小而变大;

当实际的 y=0 且 hø=0 时,误差代价为0;当 y=0 但 hø != 0 时,误差随hø的变大而变大。

将构建的Cost(hø(x), y) 进行一个简化,可以得到如下简化公式:


这个简化其实是对上面Cost(hø(x), y) 的两种表达式的一次性结合。

将简化代入到代价函数,得到:


这便是逻辑回归模型的代价函数了。

在得到这样的一个代价函数之后,我们便可以使用梯度下降算法(Gradient Descent)来求得能够使代价函数最小的参数了。

梯度下降算法:


对此求导,得到:


*注:虽然得到的梯度下降算法,表面上看上去和线性回归的梯度下降算法一样,但是这里的hø(x) = g(øTX)与线性回归不同,所以实际上是不一样的。另外,在运行梯度下降算法之前,对特征进行特征缩放(Features Scaling)也是非常必要的。


一些梯度下降算法之外的选择:

除了梯度下降算法之外,还有一些常被用来使代价函数最小的算法,这些算法更加复杂和优秀,而且通常情况下,不需要人工选择学习速率,通常也比梯度下降算法更加快速。举一些例子:共轭梯度法(Conjugate Gradient)局部优化法(Broyden Fletcher Goldfarb Shann, BFGS)有限内存局部优化法(LBFGS)。这些算法更加复杂也更加优秀,如果感兴趣我们可以以后再继续讨论。

MatlabOctave中,有一个最小值优化函数,fminunc。使用时,我们需要提供代价函数和每个参数的求导,这里给大家举一个例子:

function [ jVal, gradient ] = costFunction( theta )
%COSTFUNCTION Summary of this function goes here
%   Detailed explanation goes here
    jVal = (theta(1)-5)^2 + (theta(2)-5)^2;
    gradient = zeros(2,1);
    gradient(1) = 2*(theta(1)-5);
    gradient(2) = 2*(theta(2)-5);

end

options = optimset('GradObj', 'on', 'MaxIter', '100');
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);

*PS :关于机器学习相关算法的 MatlabOctave代码,我上传到了我的coding.net项目中,有需要的童鞋可以联系我。
相关文章
|
3月前
|
机器学习/深度学习 算法 知识图谱
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)
【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)
|
3月前
|
机器学习/深度学习 存储 自然语言处理
【机器学习】基于逻辑回归的分类预测
【机器学习】基于逻辑回归的分类预测
|
3月前
|
机器学习/深度学习 算法 PyTorch
【机器学习】揭开激活函数的神秘面纱
【机器学习】揭开激活函数的神秘面纱
|
3月前
|
机器学习/深度学习 算法
【机器学习】逻辑回归介绍(逻辑回归应用场景,原理,损失及优化详解!!!)
【机器学习】逻辑回归介绍(逻辑回归应用场景,原理,损失及优化详解!!!)
|
5月前
|
机器学习/深度学习
【机器学习】如何判断函数凸或非凸?(面试回答)
文章介绍了如何判断函数是凸函数还是非凸函数,包括凸函数的定义、几何意义、判定方法(一元函数通过二阶导数判断,多元函数通过Hessian矩阵的正定性判断),以及凸优化的概念和一些经典的凸优化问题。
325 1
【机器学习】如何判断函数凸或非凸?(面试回答)
|
5月前
|
机器学习/深度学习 人工智能 算法
【人工智能】机器学习、分类问题和逻辑回归的基本概念、步骤、特点以及多分类问题的处理方法
机器学习是人工智能的一个核心分支,它专注于开发算法,使计算机系统能够自动地从数据中学习并改进其性能,而无需进行明确的编程。这些算法能够识别数据中的模式,并利用这些模式来做出预测或决策。机器学习的主要应用领域包括自然语言处理、计算机视觉、推荐系统、金融预测、医疗诊断等。
98 1
|
5月前
|
机器学习/深度学习 人工智能 算法
"揭秘机器学习背后的魔法:函数的力量如何塑造智能预测的奇迹之旅"
【8月更文挑战第16天】机器学习是人工智能的关键分支,通过算法和统计模型使计算机能从数据中学习并预测。本文介绍核心函数的应用及实现:线性回归预测连续值;逻辑回归处理二分类问题;决策树依据简单规则分类或预测;支持向量机寻找最优边界分类。使用Python的`scikit-learn`库实现这些函数,帮助理解机器学习算法的工作原理及其应用场景。
91 1
|
5月前
|
机器学习/深度学习 算法
【机器学习】SVM面试题:简单介绍一下SVM?支持向量机SVM、逻辑回归LR、决策树DT的直观对比和理论对比,该如何选择?SVM为什么采用间隔最大化?为什么要将求解SVM的原始问题转换为其对偶问题?
支持向量机(SVM)的介绍,包括其基本概念、与逻辑回归(LR)和决策树(DT)的直观和理论对比,如何选择这些算法,SVM为何采用间隔最大化,求解SVM时为何转换为对偶问题,核函数的引入原因,以及SVM对缺失数据的敏感性。
95 3
|
5月前
|
机器学习/深度学习 算法
【机器学习】支持向量机SVM、逻辑回归LR、决策树DT的直观对比和理论对比,该如何选择(面试回答)?
文章对支持向量机(SVM)、逻辑回归(LR)和决策树(DT)进行了直观和理论上的对比,并提供了在选择这些算法时的考虑因素,包括模型复杂度、损失函数、数据量需求、对缺失值的敏感度等。
76 1
|
5月前
|
机器学习/深度学习
【机器学习】逻辑回归LR的推导及特性是什么,面试回答?
逻辑回归(LR)的推导和特性的详细解释,包括其作为二分类模型的基本原理、损失函数(对数损失函数),以及决策树的特性,如不需要先验假设、高效性、易解释性、对缺失值的不敏感性,以及对冗余属性的鲁棒性。
53 1
下一篇
开通oss服务