线性判别分析,英文名称Linear Discriminant Analysis(LDA)是一种经典的线性学习方法。本文针对二分类问题,从直观理解,对其数学建模,之后模型求解,再拓展到多分类问题。
大体思想
给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
数学原理
道理是这么个道理,我们现在需要在数学上对其进行分析。我们接下来先建立求解上述问题的数学模型,之后再求解。
数学模型建立
那我们怎么从数学上去实现上述的思想呢?这里我们以二分类为例,对其展开叙述:
这个式子看起来符号有点多,我们将其化简一下,定义两个量:类内散度矩阵和类间散度矩阵:
- 类内散度矩阵(within-class scatter matrix):
把上式称为的广义瑞利商(generalized rayleigh quotient)。
数学模型求解
现在的问题就变成了,我们怎么来求这个投影方向w ww,使得目标函数最大。
优化目标函数J 的分子和分母都是关于w 的二次项,因此求解最大化J JJ与w ww的长度无关,只与其方向有关。那么我们将分母约束为1,将原问题转换为带有约束的最优化问题,再利用拉格朗日乘子法对其求解即可,原问题等价为:
LDA推广到多分类
将L D A 推广到多分类问题中,假定存在N 类,且第i 类示例数为m i 。定义“全局散度矩阵”S t :
若将W 视为一个投影矩阵,则多分类L D A 将样本投影到d ′ 维空间,d ′ 通常小于原有属性数d 。于是,可通过这个投影来减少样本点的维数,且投影过程中使用了类别信息,因此L D A L也常被视为经典的监督降维技术。
与PCA降维不同LDA降维会保留类的区分信息。在LDA二分类中,第一类的均值与第二类的均值如果重叠在一起,将会找不到投影方向。PCA与LDA并没有某一种比另外一种更好的这种说法。
本文主要参考书目,周志华机器学习。以前都没发现这书居然写地这么好。emmmm。