机器学习基础入门(二)(线性回归与成本函数)

简介: 已知一系列房子的大小以及其对应的价格的数据,要求是已知房子大小预测其房子的价格

线性回归模型

问题

已知一系列房子的大小以及其对应的价格的数据,要求是已知房子大小预测其房子的价格

过程

一、根据已知的房子大小以及其对应的价格数据,画出上图所示的二维散点图

二、根据数据拟合一条直线,让其最接近数据样本,如下图

三、根据拟合出来的直线,将房子大小代入式子,便可预测房子的价格

机器学习模型流程图

注意:

1、y-hat:利用模型求出的预测值

2、y:训练集中的真实值

3、x:待预测的变量

4、f:训练出来的模型

模型f的选择

在线性回归中,我们选择线性函数来作为训练模型如:

简写为:

该模型也称为:单变量线性回归最基础的回归模型)

 

回归和分类比较

1、回归模型可以有无穷多个输出,分类模型的输出值个数是少量且固定的

2、分类模型和回归模型都是监督模型

3、分类模型是特殊的回归模型

机器学习术语

训练集:用来训练模型的数据

模型训练

在得到已知数据并构造散点图后,我们下一步要做的就是在数据中拟合直线。如何知道拟合的直线效果好不好呢?这个时候就要引入成本函数

通过比较不同直线在已知训练数据中成本函数值的大小就可以判断该直线拟合的效果如何

成本函数

介绍

成本函数(损失函数)是衡量模型预测结果与真实标签之间差异的函数

以下是两者的详细介绍:

  • 损失函数(Loss Function):它计算的是单个样本的真实值与预测值之间的误差。在机器学习中,损失函数用于评估模型对于单个数据点的预测性能,常见的损失函数包括平均平方误差、交叉熵损失等。
  • 成本函数(Cost Function):它是在所有训练样本上定义的,通常是指所有样本上的损失函数之和或平均值。成本函数衡量的是整个模型在全部数据集上的表现,通过最小化成本函数来寻找模型参数的最优解。

设计成本函数

1、损失函数就是衡量直线拟合的如何——》拟合好不好就是看预测值和真实值差距大不大

2、得到损失函数: ——》考虑差值有正有负,将损失函数修改为:

3、衡量模型在整合训练集中的误差——》损失函数修改为: (m为训练集数量)

4、考虑到评估训练模型的好坏(客观的量,不受训练集大小影响)——》损失函数修改为: ——》方便后续计算再次修改损失函数为:

5、将损失函数 正式命名为

上面构造出来的成本函数称为:均方误差(MSE)

直观化理解成本函数

成本函数: 是一个关于w,b两个参数的变量

模型f: 是一个关于x的变量

当选定一个w,b就能构造一个模型f,同时计算出模型f的成本函数的值,从而在成本函数图像中确定一个点。当选择更多的w,b时就能画出成本函数的函数图像

左图:由训练集得到的散点图,用于计算成本函数值

                          右图:由每一个参数对应的成本函数值,画出的成本函数的函数图

相关文章
|
2月前
|
机器学习/深度学习 数据采集 算法
深入了解机器学习:从入门到应用
【10月更文挑战第6天】深入了解机器学习:从入门到应用
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI的奥秘:机器学习入门指南
【10月更文挑战第30天】本篇文章是一份初学者友好的机器学习入门指南,旨在帮助读者理解并开始实践机器学习。我们将介绍机器学习的基本概念,包括监督学习、无监督学习和强化学习等。我们还将提供一些实用的代码示例,以帮助读者更好地理解和应用这些概念。无论你是编程新手,还是有一定经验的开发者,这篇文章都将为你提供一个清晰的机器学习入门路径。
37 2
|
1月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
机器学习基础:使用Python和Scikit-learn入门
33 1
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第12天】本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和入门实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型训练和评估等步骤,并提供了代码示例。通过本文,读者可以掌握机器学习的基本流程,并为深入学习打下坚实基础。
24 1
|
2月前
|
机器学习/深度学习 人工智能 算法
机器学习基础:使用Python和Scikit-learn入门
本文介绍了如何使用Python和Scikit-learn进行机器学习的基础知识和实践。首先概述了机器学习的基本概念,包括监督学习、无监督学习和强化学习。接着详细讲解了Python和Scikit-learn的安装、数据处理、模型选择与训练、模型评估及交叉验证等关键步骤。通过本文,初学者可以快速上手并掌握机器学习的基本技能。
62 2
|
2月前
|
机器学习/深度学习 人工智能 数据挖掘
机器学习基础:使用Python和Scikit-learn入门
【10月更文挑战第6天】在人工智能领域,机器学习已成为核心技术。本文指导初学者使用Python与Scikit-learn入门机器学习,涵盖基本概念、环境搭建、数据处理、模型训练及评估等环节。Python因简洁性及其生态系统成为首选语言,而Scikit-learn则提供了丰富工具,简化数据挖掘与分析流程。通过实践示例,帮助读者快速掌握基础知识,为进一步深入研究奠定坚实基础。
30 4
|
1月前
|
机器学习/深度学习 数据采集 算法
探索机器学习中的线性回归
【10月更文挑战第25天】本文将深入浅出地介绍线性回归模型,一个在机器学习领域中广泛使用的预测工具。我们将从理论出发,逐步引入代码示例,展示如何利用Python和scikit-learn库实现一个简单的线性回归模型。文章不仅适合初学者理解线性回归的基础概念,同时也为有一定基础的读者提供实践指导。
|
24天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
67 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
阿里云人工智能平台 PAI 团队发表的图像编辑算法论文在 MM2024 上正式亮相发表。ACM MM(ACM国际多媒体会议)是国际多媒体领域的顶级会议,旨在为研究人员、工程师和行业专家提供一个交流平台,以展示在多媒体领域的最新研究成果、技术进展和应用案例。其主题涵盖了图像处理、视频分析、音频处理、社交媒体和多媒体系统等广泛领域。此次入选标志着阿里云人工智能平台 PAI 在图像编辑算法方面的研究获得了学术界的充分认可。
【MM2024】阿里云 PAI 团队图像编辑算法论文入选 MM2024
|
2月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)