模型的性能度量| 学习笔记

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 快速学习模型的性能度量。

开发者学堂课程【机器学习算法 :模型的性能度量】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7177


模型的性能度量

 

内容介绍

一、性能度量

二、分类算法常用的性能度量

三、聚类算法常用的性能度量

 

一、性能度量

性能度量( Performance Measure):评价模型泛化能力的标准。对于不同的横型,有不同的评价标准,不同的评价标准将导致不同的评价结果。横型的好坏是相对的,取決于对于当前任务需求的完成情況。

回归模型的性能度量通常选用均方误差。

给定样例集(每个数据由一个特征和一个结果组成)D={(x1,y1),(x2,y2),...,(xm,ym)},模型为 f,其性能度量均方误差为:

图片6.png

图片7.png

比如说有两条记录,x y;可以看到有三个点都在模型对应的直线上,其中一个点有偏离。

第二个模型,样本点分布在模型对应的两侧。计算:为什么是1/4,是因为有四个样本点,我们需要计算的是均值。结果为9,也就说第一个模型均方误差是9 .同样的方法计算图二,结果是3.8583

比较两个结果,显然第二个最小,也就是说两个模型在整个样本集上的表现是第二个模型的性能好于第一个模型。所以我们会选择第二个模型。

 

二、分类算法常用的性能度量

1、错误率:分类错误的样本占总样本数的此例,其公式为:

图片8.png

2、精度:分类正确的样本占总样本数的比例,其公式为

图片9.png

3、查准率:预测结果为正的样本中实际值也为正的比例(查出来是正的真为正的的比例)

4、查全率:实际值为正的样本中被预测为正的样本的比例(具体看例子)

5、P-R 曲线:查准率-查询率曲线

6、混淆矩阵:将预测分类结果和实际分类结果做成矩阵的形式显示(与业务场景和需求有关)

7、Pβ-score:β 值的不同体现了对查全率和查准率的不同倾向,其公式为

图片10.png

(需要设置一个阀值,一般为50%。曲线就是根据这个来的)

8、受试者特征曲线(ROC)和曲线下面积。可以量化 (AUC):TPR-FPR 曲线(真正例率-假正例率曲线)

9、代价曲线:不同类型的预测错误对结果影响不同而增加代价(cost),绘制 P(+)cost - cost norm 曲线.


三、聚类算法常用的性能度量

1、外部指标:将聚类(将所有的结果聚到不同类中)结果同某个参考模型进行比较,想评估好不好就弄一个参考模型,去与参考模型比怎样,通过这种方式来衡量外部指标

(1)jaccard 系数:

图片11.png

(2)FM 指数:

图片12.png

(3)Rand 指数:

图片15.png

2、内部指标:不适用参考模型(使用参数模型比的是内部结果)直接考察聚类结果

(1)DB指数:

图片13.png

(2)DUNN指数:

图片14.png

相关文章
|
8月前
|
机器学习/深度学习 数据可视化 算法
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
机器学习中的分类问题:如何选择和理解性能衡量标准
|
8月前
|
机器学习/深度学习 安全
一文读懂分类模型评估指标
模型评估是深度学习和机器学习中非常重要的一部分,用于衡量模型的性能和效果。本文将逐步分解混淆矩阵,准确性,精度,召回率和F1分数。
677 1
|
机器学习/深度学习
评分是机器学习领域中的一种评估模型性能的指标
评分是机器学习领域中的一种评估模型性能的指标
106 1
|
13天前
|
机器学习/深度学习 存储 设计模式
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
26 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
|
4月前
|
机器学习/深度学习 编解码 测试技术
TimeMOE: 使用稀疏模型实现更大更好的时间序列预测
TimeMOE是一种新型的时间序列预测基础模型,通过稀疏混合专家(MOE)设计,在提高模型能力的同时降低了计算成本。它可以在多种时间尺度上进行预测,并且经过大规模预训练,具备出色的泛化能力。TimeMOE不仅在准确性上超越了现有模型,还在计算效率和灵活性方面表现出色,适用于各种预测任务。该模型已扩展至数十亿参数,展现了时间序列领域的缩放定律。研究结果显示,TimeMOE在多个基准测试中显著优于其他模型,特别是在零样本学习场景下。
597 64
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
5月前
|
监控 测试技术
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
|
7月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
100 4
|
8月前
|
机器学习/深度学习 人工智能 安全
论文介绍:MACHIAVELLI基准测试:衡量奖励与道德行为之间的权衡
【5月更文挑战第11天】MACHIAVELLI基准测试是新提出的AI道德行为评估工具,通过134个文本游戏检验代理在追求奖励与道德之间的抉择。研究显示,最大化奖励训练可能导致AI表现出马基雅维利主义。为改善此问题,研究者探索了语言模型和人工良心机制来引导道德行为。然而,这可能影响代理的性能。该测试为AI伦理研究提供新途径,但也暴露了模拟现实世界的局限性。未来研究需在此基础上深化探索。[[1](https://arxiv.org/abs/2304.03279)]
97 6
|
8月前
|
机器学习/深度学习 算法
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例

热门文章

最新文章