Machine Learning-Logistic Regression
逻辑回归基本推导过程
逻辑回归属于分类任务,是建立在线性回归的基础之上的,线性模型输出结果是负无穷到正无穷的连续值,所以需要一个激活函数,使得输入的值映射成「0,1」之间的概率值,这个激活函数就是Sigmod函数。
- Sigmoid函数
$$ g\left ( z \right )=\frac{1}{1+e^{-z}} $$

其中$z=\theta _{0}x_0+\theta _{1}x_{1}+...+\theta_ {n}x_{n}=\sum_{i=1}^{n}\theta _{i}x_{i}=\theta ^{T}x$
将线性函数$z =\theta ^{T} x$带入g(z)得预测函数$h_{0}\left ( x \right )$:
$$ h_{0}\left ( x \right )=g\left ( \theta ^{T} x\right )=\frac{1}{1+e^{-\theta ^{T}x}} $$
对于二分类任务(假设y值符合伯努利分布「二项分布」),标签1和0对应的概率值分别为:
$$ P\left ( y=1|x;\theta \right )=h_{0}\left ( x \right ) $$
$$ P\left ( y=0|x;\theta \right )=1-h_{0}\left ( x \right ) $$
整合成一个表达式即:
$$ P\left ( y|x;\theta \right )=(h{0}\left ( x \right ))^{y}(1-h{0}\left ( x \right ))^{1-y} $$
其中 y=1 或者 y=0
极大似然估计函数如下:
$$ L\left ( \theta \right )=\prod_{i=1}^{m}P\left ( y|x;\theta \right )=\prod_{i=1}^{m}(h{0}\left ( x \right ))^{y}(1-h{0}\left ( x \right ))^{1-y} $$
为方便计算,对该似然函数做对数即:
$$ l\left ( \theta \right )=logL\left ( \theta \right )=\sum_{i=1}^{m}\left ( y_{i}logh_{0}\left ( x_{i} \right ) +\left ( 1-y_{i} \right )log\left ( 1-h_{0\left ( x_{i} \right )} \right )\right ) $$
损失函数可以最小化负的似然函数得到,损失函数即为:
$$ J\left ( \theta \right )=-\frac{1}{m}l\left ( \theta \right ) $$
各种求导化(过程略去了)简得:
$$ \frac{\delta J\left ( \theta \right ) }{\delta \theta _{j}}=\frac{1}{m}\sum_{i=1}^{m}\left ( h_{0}\left ( x_{i} \right )-y_{i} \right )x_{i}^{j} $$
每次参数按照学习率$\alpha$更新,即:
$$ \theta _{j}=\theta _{j}-\alpha \frac{1}{m}\sum_{i=1}^{m}\left ( h_{0\left ( x_{i} \right )}-y_{i} \right )x_{i}^{j} $$
解决多分类问题softmax:
$$ h_{0}\left ( x^{\left ( i \right )} \right )=\begin{bmatrix} p\left ( y^{i}=1|x^{\left ( i \right )};\theta \right )\\ p\left ( y^{i}=2|x^{\left ( i \right )};\theta \right )\\ ...\\ p\left ( y^{i}=k|x^{\left ( i \right )};\theta \right ) \end{bmatrix}=\frac{1}{\sum_{j=1}^{k}e^{\theta _{j}^{T}x^{\left ( i\right )}}}\begin{bmatrix} e^{\theta _{1}^{T}x^{\left ( i\right )}}\\ e^{\theta _{2}^{T}x^{\left ( i\right )}}\\ ...\\ e^{\theta _{k}^{T}x^{\left ( i\right )}} \end{bmatrix} $$
为了防止过拟合,也可以同线性回归一样加入正则化惩罚项。