处理数据缺失的结构化解决办法
数据缺失是数据科学家在处理数据时经常遇到的问题,本文作者基于不同的情境提供了相应的数据插补解决办法。没有完美的数据插补法,但总有一款更适合当下情况。
Cross Entropy Loss 交叉熵损失函数公式推导
表达式
输出标签表示为{0,1}时,损失函数表达式为:
$L = -[y log \hat{y} + (1-y)log(1- \hat{y})]$
二分类
二分类问题,假设 y∈{0,1}
正例:$P(y = 1| x) = \hat{y}$
反例:$P(y=0|x) = 1-\hat{y}$
取似然函数
似然函数就是所有样本在参数θ下发生概率最大的那种情况,由于样本独立同分布,因此概率最大的情况就是每个样本发生概率的连乘。
GPU加速深度学习
本文介绍了GPU用于深度学习(尤其是深度学习训练)加速的背景,使用了主流的开源深度学习框架在NVIDIA GPU上实测加速性能,并给出了一些使用建议。
机器学习入门|决策树(一)
决策树(decesion tree)算法与其他机器学习算法最大的优势就是有很好的解释性,并可将分类结果进行可视化展示。但是决策树算法选择特征的方法众多,如何选择合适的方法是一个难点。
基于机器学习的web异常检测
基于机器学习技术的新一代web入侵检测技术有望弥补传统规则集方法的不足,为web对抗的防守端带来新的发展和突破。本文介绍了机器学习用于web异常检测的几个思路。