一、什么是二分类
二分类问题就是简单的“是否”、“有无”问题,分类问题是机器学习中非常重要的一个课题。现实生活中有很多实际的二分类场景,如对于借贷问题,我们会根据某个人的收入、存款、职业、年龄等因素进行分析,判断是否进行借贷;对于一封邮件,根据邮件内容判断该邮件是否属于垃圾邮件。
二、案例分析
我们之前的学习都是围绕回归来进行的,今天我们学习一个全新的概念,分类问题。我们从最简的二分类开始学习,简单来说就是根据目标的某些特性将其分为两类。我们以图像分类举例,我们不去考虑图像本身的内容,只根据尺寸把它分类为纵向图像和横向图像 :
那么上面左侧的图片就是纵向的图片,右侧的图片就是横向的图片。我们以表格的形式呈现:
设 x 轴为图像的宽、y 轴为图像的高,那么把上面的数据展现在图上就是下面这样的,其中白色的点是纵向图像,黑色的点是横向图像:
以此类推,我们可以在表上和图上添加更多的数据:
现在要做的事就是只用一条线将图中白色的点和黑色的点分开:
我们可以这样画,那么我们二分类的任务就完成了,是不是很简单,在直线上方出现的点,我们都认为是纵向,黑色都认为是横向,达到了分类的目的。
三、总结
上述例子,我们以图像横纵的分类详细阐述了二分类。二分类的目的就是找到这条线,只要找到这条线,就可以根据点在线的哪一边来判断图像是横向还是纵向的了。
当然,这只是一种很理想的状态,真实的情况比这要复杂的多,分割函数可能会很复杂,这是我们之后要研究的问题,在这里就不进行阐述。