机器学习——支持向量机SVM在R中的实现-阿里云开发者社区

机器学习——支持向量机SVM在R中的实现

2016-05-09 3772

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 支持向量机是一个相对较新和较先进的机器学习技术，最初提出是为了解决二类分类问题，现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文，你将学习到支持向量机如何工作，以及如何利用R语言实现支持向量机。支持向量机如何工作？简单介绍下支持向量机是做什么的：假设你的数据点分为两类，支持向量机试图寻找最优的一条线（超平面），使得离这条线最近的点与其他类中的点的距

支持向量机是一个相对较新和较先进的机器学习技术，最初提出是为了解决二类分类问题，现在被广泛用于解决多类非线性分类问题和回归问题。继续阅读本文，你将学习到支持向量机如何工作，以及如何利用R语言实现支持向量机。

支持向量机如何工作？

简单介绍下支持向量机是做什么的：

假设你的数据点分为两类，支持向量机试图寻找最优的一条线（超平面），使得离这条线最近的点与其他类中的点的距离最大。有些时候，一个类的边界上的点可能越过超平面落在了错误的一边，或者和超平面重合，这种情况下，需要将这些点的权重降低，以减小它们的重要性。

这种情况下，“支持向量”就是那些落在分离超平面边缘的数据点形成的线。

无法确定分类线（线性超平面）时该怎么办？

此时可以将数据点投影到一个高维空间，在高维空间中它们可能就变得线性可分了。它会将问题作为一个带约束的最优化问题来定义和解决，其目的是为了最大化两个类的边界之间的距离。

我的数据点多于两个类时该怎么办？

此时支持向量机仍将问题看做一个二元分类问题，但这次会有多个支持向量机用来两两区分每一个类，直到所有的类之间都有区别。

工程实例

让我们看一下如何使用支持向量机实现二元分类器，使用的数据是来自MASS包的cats数据集。在本例中你将尝试使用体重和心脏重量来预测一只猫的性别。我们拿数据集中20%的数据点，用于测试模型的准确性（在其余的80%的数据上建立模型）。

 
         1 
       
         2 
       
         3 
       
         4 
       
        # Setup 
       
        # 先需要安装SVM包e1071; 
       
        library
        (
        e1071
        ) 
       
        data
        (
        cats
        ,
         
        package
        =
        "MASS"
        ) 
       
        inputData
         
        <
        -
         
        data
        .
        frame
        (
        cats
        [
        ,
         
        c
         
        (
        2
        ,
        3
        )
        ]
        ,
         
        response
         
        =
         
        as
        .
        factor
        (
        cats
        $
        Sex
        )
        )
         
        # response as factor

线性支持向量机

传递给函数svm()的关键参数是kernel、cost和gamma。Kernel指的是支持向量机的类型，它可能是线性SVM、多项式SVM、径向SVM或Sigmoid SVM。Cost是违反约束时的成本函数，gamma是除线性SVM外其余所有SVM都使用的一个参数。还有一个类型参数，用于指定该模型是用于回归、分类还是异常检测。但是这个参数不需要显式地设置，因为支持向量机会基于响应变量的类别自动检测这个参数，响应变量的类别可能是一个因子或一个连续变量。所以对于分类问题，一定要把你的响应变量作为一个因子。

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
         6 
       
        # linear SVM 
       
        svmfit
        
        <
        -
        
        svm
        (
        response
        
        ~
        
        .
        ,
        
        data
        
        =
        
        inputData
        ,
        
        kernel
        
        =
        
        "linear"
        ,
        
        cost
        
        =
        
        10
        ,
        
        scale
        
        =
        
        FALSE
        )
        
        # linear svm, scaling turned OFF 
       
        print
        (
        svmfit
        ) 
       
        plot
        (
        svmfit
        ,
        
        inputData
        ) 
       
        compareTable
        
        <
        -
        
        table
        
        (
        inputData
        $
        response
        ,
        
        predict
        (
        svmfit
        )
        )
          
        # tabulate 
       
        mean
        (
        inputData
        $
        response
        
        !=
        
        predict
        (
        svmfit
        )
        )
        
        # 19.44% misclassification error

径向支持向量机

径向基函数作为一个受欢迎的内核函数，可以通过设置内核参数作为“radial”来使用。当使用一个带有“radial”的内核时，结果中的超平面就不需要是一个线性的了。通常定义一个弯曲的区域来界定类别之间的分隔，这也往往导致相同的训练数据，更高的准确度。

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
         6 
       
        # radial SVM 
       
        svmfit
         
        <
        -
         
        svm
        (
        response
         
        ~
         
        .
        ,
         
        data
         
        =
         
        inputData
        ,
         
        kernel
         
        =
         
        "radial"
        ,
         
        cost
         
        =
         
        10
        ,
         
        scale
         
        =
         
        FALSE
        )
         
        # radial svm, scaling turned OFF 
       
        print
        (
        svmfit
        ) 
       
        plot
        (
        svmfit
        ,
         
        inputData
        ) 
       
        compareTable
         
        <
        -
         
        table
         
        (
        inputData
        $
        response
        ,
         
        predict
        (
        svmfit
        )
        )
          
        # tabulate 
       
        mean
        (
        inputData
        $
        response
         
        !=
         
        predict
        (
        svmfit
        )
        )
         
        # 18.75% misclassification error

寻找最优参数

你可以使用tune.svm()函数，来寻找svm()函数的最优参数。

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
         6 
       
         7 
       
         8 
       
         9 
       
         10 
       
        ### Tuning 
       
        # Prepare training and test data 
       
        set
        .
        seed
        (
        100
        )
        
        # for reproducing results 
       
        rowIndices
        
        <
        -
        
        1
        
        :
        
        nrow
        (
        inputData
        )
        
        # prepare row indices 
       
        sampleSize
        
        <
        -
        
        0.8
        
        *
        
        length
        (
        rowIndices
        )
        
        # training sample size 
       
        trainingRows
        
        <
        -
        
        sample
        
        (
        rowIndices
        ,
        
        sampleSize
        )
        
        # random sampling 
       
        trainingData
        
        <
        -
        
        inputData
        [
        trainingRows
        ,
        
        ]
        
        # training data 
       
        testData
        
        <
        -
        
        inputData
        [
        -
        trainingRows
        ,
        
        ]
        
        # test data 
       
        tuned
        
        <
        -
        
        tune
        .
        svm
        (
        response
        
        ~
        .
        ,
        
        data
        
        =
        
        trainingData
        ,
        
        gamma
        
        =
        
        10
        ^
        (
        -
        6
        :
        -
        1
        )
        ,
        
        cost
        
        =
        
        10
        ^
        (
        1
        :
        2
        )
        )
        
        # tune 
       
        summary
        
        (
        tuned
        )
        
        # to select best gamma and cost

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
         6 
       
         7 
       
         8 
       
         9 
       
         10 
       
         11 
       
         12 
       
         13 
       
         14 
       
         15 
       
         16 
       
         17 
       
         18 
       
         19 
       
         20 
       
         21 
       
         22 
       
         23 
       
        # Parameter tuning of 'svm': 
       
        #   - sampling method: 10-fold cross validation 
       
        # 
       
        # - best parameters: 
       
        #   gamma cost 
       
        # 0.001  100 
       
        # 
       
        # - best performance: 0.26 
       
        # 
       
        # - Detailed performance results: 
       
        #   gamma cost error dispersion 
       
        # 1  1e-06   10  0.36 0.09660918 
       
        # 2  1e-05   10  0.36 0.09660918 
       
        # 3  1e-04   10  0.36 0.09660918 
       
        # 4  1e-03   10  0.36 0.09660918 
       
        # 5  1e-02   10  0.27 0.20027759 
       
        # 6  1e-01   10  0.27 0.14944341 
       
        # 7  1e-06  100  0.36 0.09660918 
       
        # 8  1e-05  100  0.36 0.09660918 
       
        # 9  1e-04  100  0.36 0.09660918 
       
        # 10 1e-03  100  0.26 0.18378732 
       
        # 11 1e-02  100  0.26 0.17763883 
       
        # 12 1e-01  100  0.26 0.15055453

结果证明，当cost为100，gamma为0.001时产生最小的错误率。利用这些参数训练径向支持向量机。

 
         1 
       
         2 
       
         3 
       
         4 
       
         5 
       
        svmfit
        
        <
        -
        
        svm
        
        (
        response
        
        ~
        
        .
        ,
        
        data
        
        =
        
        trainingData
        ,
        
        kernel
        
        =
        
        "radial"
        ,
        
        cost
        
        =
        
        100
        ,
        
        gamma
        =
        0.001
        ,
        
        scale
        
        =
        
        FALSE
        )
        
        # radial svm, scaling turned OFF 
       
        print
        (
        svmfit
        ) 
       
        plot
        (
        svmfit
        ,
        
        trainingData
        ) 
       
        compareTable
        
        <
        -
        
        table
        
        (
        testData
        $
        response
        ,
        
        predict
        (
        svmfit
        ,
        
        testData
        )
        )
          
        # comparison table 
       
        mean
        (
        testData
        $
        response
        
        !=
        
        predict
        (
        svmfit
        ,
        
        testData
        )
        )
        
        # 13.79% misclassification error

网格图

一个2-色的网格图，能让结果看起来更清楚，它将图的区域指定为利用SVM分类器得到的结果的类别。在下边的例子中，这样的网格图中有很多数据点，并且通过数据点上的倾斜的方格来标记支持向量上的点。很明显，在这种情况下，有很多越过边界违反约束的点，但在SVM内部它们的权重都被降低了。

 
   
 
 
   
    
     
         1 
       

         2 
       

         3 
       

         4 
       

         5 
       

         6 
       

         7 
       

         8 
       

         9 
       

         10 
       

         11 
       

         12 
       

         13 
       

         14 
       

         15 
       

         16 
       

         17 
       

         18 
       

         19 
       

         20 
       

         21 
       

         22 
       

         23 
       

         24 
       

         25 
       
 
     
        # Grid Plot 
       

        n_points_in_grid
        
        =
        
        60 
        
        #num grid points in a line 
       

        x_axis_range
        
        &
        lt
        ;
        -
        
        range
        
        (
        inputData
        [
        ,
        
        2
        ]
        )
        
        # range of X axis 
       

        y_axis_range
        
        &
        lt
        ;
        -
        
        range
        
        (
        inputData
        [
        ,
        
        1
        ]
        )
        
        # range of Y axis 
       

        X_grid_points
        
        &
        lt
        ;
        -
        
        seq
        
        (
        from
        =
        x_axis_range
        [
        1
        ]
        ,
        
        to
        =
        x_axis_range
        [
        2
        ]
        ,
        
        length
        =
        n_points_in_grid
        )
        
        # grid points along x-axis 
       

        Y_grid_points
        
        &
        lt
        ;
        -
        
        seq
        
        (
        from
        =
        y_axis_range
        [
        1
        ]
        ,
        
        to
        =
        y_axis_range
        [
        2
        ]
        ,
        
        length
        =
        n_points_in_grid
        )
        
        # grid points along y-axis 
       

        ll_grid_points
        
        &
        lt
        ;
        -
        
        expand
        .
        grid
        
        (
        X_grid_points
        ,
        
        Y_grid_points
        )
        
        # generate all grid points 
       

        names
        
        (
        all_grid_points
        )
        
        &
        lt
        ;
        -
        
        c
        (
        &
        quot
        ;
        Hwt
        &
        quot
        ;
        ,
        
        &
        quot
        ;
        Bwt
        &
        quot
        ;
        )
        
        # rename 
       

        all_points_predited
        
        &
        lt
        ;
        -
        
        predict
        (
        svmfit
        ,
        
        all_grid_points
        )
        
        # predict for all points in grid 
       

        color_array
        
        &
        lt
        ;
        -
        
        c
        (
        &
        quot
        ;
        red
        &
        quot
        ;
        ,
        
        &
        quot
        ;
        blue
        &
        quot
        ;
        )
        [
        as
        .
        numeric
        (
        all_points_predited
        )
        ]
        
        # colors for all points based on predictions 
       

        plot
        
        (
        all_grid_points
        ,
        
        col
        =
        color_array
        ,
        
        pch
        =
        20
        ,
        
        cex
        =
        0.25
        )
        
        # plot all grid points 
       

        points
        
        (
        x
        =
        trainingData
        $
        Hwt
        ,
        
        y
        =
        trainingData
        $
        Bwt
        ,
        
        col
        =
        c
        (
        &
        quot
        ;
        red
        &
        quot
        ;
        ,
        
        &
        quot
        ;
        blue
        &
        quot
        ;
        )
        [
        as
        .
        numeric
        (
        trainingData
        $
        response
        )
        ]
        ,
        
        pch
        =
        19
        )
        
        # plot data points 
       

        points
        
        (
        trainingData
        [
        svmfit
        $
        index
        ,
        
        c
        
        (
        2
        ,
        
        1
        )
        ]
        ,
        
        pch
        =
        5
        ,
        
        cex
        =
        2
        )
        
        # plot support vectors 
       
 
    
 
   
 

机器学习——支持向量机SVM在R中的实现

支持向量机如何工作？

无法确定分类线（线性超平面）时该怎么办？

我的数据点多于两个类时该怎么办？

工程实例

线性支持向量机

径向支持向量机

寻找最优参数

网格图

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

机器学习——支持向量机SVM在R中的实现

支持向量机如何工作？

无法确定分类线（线性超平面）时该怎么办？

我的数据点多于两个类时该怎么办？

工程实例

线性支持向量机

径向支持向量机

寻找最优参数

网格图

热门文章

最新文章

相关课程

相关电子书

相关实验场景