一、机器学习简介
机器学习应用的领域非常广泛:
- 数据挖掘:分析用户信息,提高用户对产品的依赖性。
- 计算机视觉:无人驾驶汽车–实时进行检测任务
机器学习的步骤:
1、训练样本
2、特征提取(数据科学家:知道一份数据如何是机器能更好的识别特征)
3、学习函数
4、预测
Numpy:科学计算库(矩阵)
Pandas:数据分析处理库(缺失值,异常值等数据分析处理)
Matplotlib:数据可视化库(画图)
Scikit-learn:机器学习库(机器学习)
二、回归算法
分类:最终得出的结果是一个类别
回归:最终的结果不是类别值,而是具体的值
例子:
根据工资和年龄来判断银行能够向该客户借多少钱。
由于最终的预测结果是一个具体的值,因此这是一个回归问题。
工资和年龄这两个指标称为特征,两个特征的影响程度是不一样的。
关于线性回归的算法,大体上面是使用了概率论与数理统计当中的似然函数以及对数似然函数,具体过程就不展示了,目标函数如下:
逻辑回归:
逻辑回归是经典的二分类问题,虽然是回归,但它得到的最终的结果是类别
关于梯度下降:梯度下降算法原理讲解——机器学习
三、支持向量机要解决的问题
支持向量机做的是分类任务,解决二分类问题。
支持向量机相比于决策树,不仅要分的纯,还要分的好,能够容忍的误差更大。
因此支持向量机要解决的问题就是找到最优的线,能最好的区分样本,进行分类。
四、支持向量机求解目标
根据上图,我们的目的是找到一条线,这条线要满足以下要求:
即下图
下图中的X1,X3就是支持向量机算法当中的支持向量。
对于线性的支持向量机,只要找出这样一个超平面即可。
但是如果样本数据当中存在异常点,那么就需要舍去这个异常点。
观察下面的实线:由于包含了异常点,因此O和X都离线很近,但如果使用虚线,则OX离虚线较远,能更好的满足我们的需求。
五、核函数变换
支持向量机就是通过一些核函数,将一些低维空间的数据,转化成高维空间的数据。