最小二乘法
期望和实际值的方差作为损失函数,1/2是为了方便求导。
实际值又是通过权重W和偏置项b来确定,所以我们可以对它训练。
极大似然估计
我们以抛硬币为例,左边的是我们假设的概率模型,右边是真实世界的实验结果。
c1,c2,c3…c10是该情况发生的概率,西塔是给定的概率模型。
我们计算上述三种情况得到的概率,如下图所示
我们发现第二种模型,概率最大。这些我们假设模型计算的结果叫做似然值,而最大的似然值就是最大似然值。我们就可以认为最大似然值的概率模型越能描述现实世界。
如何训练呢?其中概率依赖于W和b,我们写成y。并且展开,加上log方便计算(乘法变加法)下面是个二分类问题。
交叉熵
公式和极大似然估计一样,但是思路不一样,之后再补充。