谷歌《机器学习速成课程》学习摘要

简介: 机器学习概念机器学习简介机器学习可以胜任编写一个程序纠正英语拼写错误,并扩展到支持100种语言。

机器学习概念

机器学习简介
框架处理
深入了解机器学习
降低损失
使用TF的基本步骤
泛化
训练集和测试集
验证
表示法
特征组合
正则化:简单性
逻辑回归
分类
正则化:稀疏性
神经网络简介
训练神经网络
多类别神经网络
嵌入

机器学习工程

生产环境机器学习系统
静态训练与动态训练
静态推理与动态推理
数据依赖关系
视频讲座
视频讲座总结
机器学习系统的行为取决于其输入特征的行为和品质。当这些特征的输入数据发生更改时,您的模型也会随之变化。有时,这种变化是可取的,有时则反之。

在传统的软件开发中,您的注意力更多地放在代码而非数据上。在机器学习开发中,虽然编码仍是工作的一部分,但您必须同时关注数据。例如,在传统的软件开发项目中,编写单元测试来验证代码是一种最佳做法。而在机器学习项目中,您还必须不断地对输入数据进行测试、验证和监控。

例如,您应该持续监控您的模型以移除不用(或很少使用)的特征。假设某一特定特征对模型贡献很少或没有贡献。如果该特征的输入数据突然发生更改,则您模型的行为也可能会以意想不到的方式突然发生变化。

可靠性
以下是针对输入数据的可靠性询问的一些问题:

信号是否始终可用?信号来源是否不可靠?例如:
信号是否来自因负载过重而崩溃的服务器?
信号是否来自每年 8 月去度假的人群?
版本控制
以下是针对版本控制询问的一些问题:

计算此数据的系统是否发生过变化?如果是:
多久一次?
您如何知道系统发生变化的时间?
有时数据来自上游进程。如果该进程突然发生变化,您的模型可能会受到影响。

请考虑为从上游进程接收的数据创建您自己的副本。然后,只有当您确定这样做安全时,才跳转到下一版上游数据。

必要性
以下问题可以提醒您留意正则化:

特征的实用性是否能证明值得添加此特征?
人们往往倾向于向模型添加更多特征。例如,假设您找到一个新特征,添加该特征可让您的模型略微准确一点。较高的准确率听起来当然比较低的准确率更好。不过,现在您只是增加了自己的维护负担。添加的特征可能会意外降级,因此需要对它进行监控。在添加会带来短期利好的特征之前,请谨慎考虑。

相关性
某些特征会与其他特征相关联(正相关或负相关)。问问自己以下问题:

是否有任何特征密不可分,以至于需要采取额外策略来梳理它们?
反馈环
有时,模型会影响其自身的训练数据。例如,来自某些模型的结果反过来是同一模型的直接或间接输入特征。

有时,一个模型会影响另一个模型。以下列两个股价预测模型为例:

模型 A - 不理想的预测模型。
模型 B。
由于模型 A 有误,因此会导致错误地决定购买股票 X 的股票,而购买这些股票会抬高股票 X 的价格。模型 B 将股票 X 的股价用作输入特征,因此它很容易对股票 X 的价值得出错误结论。然后,模型 B 会根据模型 A 的错误行为购买或销售股票 X 的股份,反过来,模型 B 的行为会影响模型 A,而这样很可能会触发郁金香狂热效应或导致 X 公司的股价下滑。
检查您的理解情况

机器学习现实世界应用示例

癌症预测
标签泄漏
18世纪文学
数据集的拆分
现实世界应用准则
下面简要说明了有效的机器学习准则:
1.确保第一个模型简单易用。
2.着重确保数据管道的正确性。
3.使用简单且可观察的指标进行训练和评估。
4.拥有并监控您的输入特征。
5.将您的模型配置视为代码:进行审核并记录在案。
6.记下所有实验的结果,尤其是“失败”的结果。

总结

后续步骤
课程是过了一遍,理解十分有限,姑且写写,未完待续。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
24 1
|
1月前
|
机器学习/深度学习 算法 Python
【绝技揭秘】Andrew Ng 机器学习课程第十周:解锁梯度下降的神秘力量,带你飞速征服数据山峰!
【8月更文挑战第16天】Andrew Ng 的机器学习课程是学习该领域的经典资源。第十周聚焦于优化梯度下降算法以提升效率。课程涵盖不同类型的梯度下降(批量、随机及小批量)及其应用场景,介绍如何选择合适的批量大小和学习率调整策略。还介绍了动量法、RMSProp 和 Adam 优化器等高级技巧,这些方法能有效加速收敛并改善模型性能。通过实践案例展示如何使用 Python 和 NumPy 实现小批量梯度下降。
28 1
|
1月前
|
机器学习/深度学习 开发者 Python
Python 与 R 在机器学习入门中的学习曲线差异
【8月更文第6天】在机器学习领域,Python 和 R 是两种非常流行的编程语言。Python 以其简洁的语法和广泛的社区支持著称,而 R 则以其强大的统计功能和数据分析能力受到青睐。本文将探讨这两种语言在机器学习入门阶段的学习曲线差异,并通过构建一个简单的线性回归模型来比较它们的体验。
47 7
|
1月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
38 9
|
1月前
|
机器学习/深度学习
【机器学习】模型融合Ensemble和集成学习Stacking的实现
文章介绍了使用mlxtend和lightgbm库中的分类器,如EnsembleVoteClassifier和StackingClassifier,以及sklearn库中的SVC、KNeighborsClassifier等进行模型集成的方法。
39 1
|
1月前
|
机器学习/深度学习 人工智能 算法
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
AI人工智能(ArtificialIntelligence,AI)、 机器学习(MachineLearning,ML)、 深度学习(DeepLearning,DL) 学习路径及推荐书籍
73 0
|
2月前
|
机器学习/深度学习 算法 前端开发
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
集成学习(Ensemble Learning)是一种机器学习技术,它通过将多个学习器(或称为“基学习器”、“弱学习器”)的预测结果结合起来,以提高整体预测性能。
|
2月前
|
机器学习/深度学习 人工智能 缓存
人工智能平台PAI使用问题之如何配置学习任务
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 算法 前端开发
机器学习中的集成学习(二)
**集成学习概述** 集成学习通过结合多个弱学习器创建强学习器,如Bagging(Bootstrap Aggregating)和Boosting。Bagging通过随机采样产生训练集,训练多个弱模型,然后平均(回归)或投票(分类)得出结果,减少方差和过拟合。Boosting则是迭代过程,每个弱学习器专注于难分类样本,逐步调整样本权重,形成加权平均的强学习器。典型算法有AdaBoost、GBDT、XGBoost等。两者区别在于,Bagging模型并行训练且独立,而Boosting模型间有依赖,重视错误分类。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
机器学习中的集成学习(一)
集成学习是一种将多个弱学习器组合成强学习器的方法,通过投票法、平均法或加权平均等策略减少错误率。它分为弱分类器集成、模型融合和混合专家模型三个研究领域。简单集成技术包括投票法(用于分类,少数服从多数)、平均法(回归问题,预测值取平均)和加权平均法(调整模型权重以优化结果)。在实际应用中,集成学习如Bagging和Boosting是与深度学习并驾齐驱的重要算法,常用于数据竞赛和工业标准。