整体流程介绍 | 学习笔记

简介: 快速学习整体流程介绍

开发者学堂课程【机器学习实战:整体流程介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/530/detail/7128


整体流程介绍

内容介绍

一、整体分析流程介绍

二、案例生存预测

三、案例分析推荐

 

一、整体分析流程介绍

1、需求分析包含:场景分析 数据收集 数据探查 算法选择

2、数据预处理包含:数据清洗 数据集成 数据变换 数据规约

3、特征工程包含:特征生成 特征变换 特征评估 特征选择

4、算法建模包含:模型训练 参数调优 交叉验证 执行调优

5、模型评估包含:模型泛化 分类评估 聚类评估 回归评估

6、模型应用包含:A/B 测试 离线应用 在线应用 生命周期

image.png

整体流程介绍:

第一步:做需求分析,首先进行场景分析,清楚所做场景的特点和问题,然后做数据收集,了解当前场景里能够收集到的数据及这些数据对我们最终要解决的问题有没有直接的联系或者帮助,然后做一个数据探查,把收集到的数据给出一个探索性的数据分析。分析数据本身的特点。再接着根据场景的情况,做出判断去选择算法,来解决问题。

第二步:做一个数据预处理,拿到数据后,因为数据本身的质量和特点可能不太一样,所以要对数据进行一个预处理,通过做一些数据清洗、数据集成、数据变换,数据规约,对数据进行一个整体的加工。即将零散的数据孤岛整合起来,然后把数据按照需求转化成需要的格式和形式。

第三步:做特征工程,对已有的数据集的特征进一步的加工。如基于已有的数据的特征去生成一些新的特征,对其中的一些特征进行转换。转换成最适应于算法的特征。特征生成之后可能会多,所以需要对这些特征进行评估,去判断最有用的特征并筛选出来。

第四步:做算法建模,构建数据集训练模型,需要进行参数调优、交叉验证,最终实际执行时对环境变量进行调优。

第五步:做模型评估,即在模型做成后对其效果进行评估。包括模型本身泛化能力评估,即在新的数据集中的表现,且不同模型不同算法在评估方式上也会不同。如果模型效果不好,就要返回重新做算法建模,然后再做评估。如果第二次做效果仍不好,就要返回到特征工程重新生成特征等工作。若效果还是不好,就要对收集的数据重新进行数据预处理然后按流程做。

第六步:通过循环的处理最终得到满足需求的模型,然后对其进行应用。要了解 AB 测试,如何离线或在线应用及关注模型的生命周期。

 

二、案例生存预测

1、生存预测:能否从沉没巨轮上生还?(以泰坦尼克号为例)

泰坦尼克号( RMSTitanic ),又译作铁达尼号,是英国白星航运公司下辖的一艘奥林匹克级邮轮,于 1909 年 3 月 31 日在爱尔兰贝尔法斯特港的哈兰德与沃尔夫造船厂动工建造,1911 年 5 月 31 日下水,1912 年 4 月 2 日完工试航。

从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,驶向美国纽约,船上时间 1912 年 4 月 14 日 23 时 40 分左右,泰坦尼克号与一座冰山相撞,造成右舷船艏至船中部破裂,五座水密舱进水,次日凌晨 2 时 20 分左右,泰坦尼克船体断裂成两截后沉入大西洋底 3700 米处。

2224 名船员及乘客中,逾 1500 人丧生,其中仅 333 具罹难者遗体被寻回。泰坦尼克号沉没事故为和平时期死伤人数最惨重的海难之一。

2、著名的数据分析竞赛网站 Kaggle 上,提供了一个“泰坦尼克号乘客生还预测”的题目。它有两个数据集,一个数据集中有 819 名乘客的信息以及他们最终是否生还,另一个数据集中记录了另外 418 名乘客信息,需要去预测第二个数据集中乘客的生还情况。

提出预想:如果当年你有幸得到一张船票,能否活着回来?

3、数据格式:

image.png

里面的 PassengerID 为乘客的标识,不参与建模,Survived 为存活状况,1 为存活 0 为死亡,它为最终预测结果;

Pclass 为客舱等级,Name 是乘客姓名,Sex 为性别,Age 为乘客年龄,SibSp 是同乘的兄弟姐妹或配偶的人数,Parch 为同乘的父母、小孩的人数,Ticket 为船票编号,Fare 是船票价格,Cabin 为客舱号,Embarked 为登船港口。

4、展示一个数据样本:

image.png

 

三、案例分析推荐

可以通过更多案例结合分析流程环节进行分析,如

1、020 优惠券使用预测

以优惠券盘活老用户或吸引新客户进店消费是 O2O 的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。

个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。现有 020 场景相关的丰富数据,希望通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

2、机场客流量分布预测

为了有效利用机场资源,需要不断提升运行效率的资源有航站楼内的各类灯光电梯设施设备、值机柜台、商铺、广告位、安检通道、登机口,航站楼外的停机位、廊桥、车辆(摆渡车、清洁车、物流车、能源车),要想提升这些资源的利用率首先需要知道未来一段时间将会有多少旅客或航班会使用这些资源,其次需要精准的调度系统来调配这些资源和安排服务人员。以海量机场 WiFi 数据及安检登机值机数据,希望通过数据算法实现机场航站楼客流分析与预测。

3、国家电网用户画像

随着电力体制改革向纵深推进,售电侧需要考虑如何充分利用现有数据资源,深入挖掘客户潜在需求,改善供电服务质量,增强客户黏性。对电力服务具有较强敏感度的客户对于电费计量供电质量、电力营销等各方面服务的质量及方式上往往具备更高的要求,成为各级电力公司关注的重点客户。

目前国家电网积累了全网 4 亿多客户档案数据和海量供电服务信息,以及公司营销、电网生产等数据,司希望通过大数据分析技术,科学的开展电力敏感客户分析,以准确地识别敏感客户,并量化敏感程度,进而支撑有针对性的精细化客户服务策略,控制电力服务人工成本、提升企业公众形象。

4、穿衣搭配推荐

穿衣搭配是服饰鞋包导购中非常重要的课题,基于搭配专家和达人生成的搭配组合数据,百万级别的商品的文本和图像数据,以及用户的行为数据。期待能从以上行为、文本和图像数据中挖掘穿衣搭配的模型,为用户提供个性化、优质的、专业的穿衣搭配方案,预测给定商品的搭配商品集合。

相关文章
|
机器学习/深度学习 自然语言处理 算法
Jieba分词的准确率提升:使用paddle模式进行分词(使用百度飞桨深度学习模型进行分词)
jieba中的paddle模式是指使用飞桨(PaddlePaddle)深度学习框架加速分词的一种模式。相对于传统的分词算法,paddle模式采用了深度学习模型,可以获得更高的分词准确度和更快的分词速度。
|
6月前
|
XML SQL 前端开发
菜鸟之路Day37一一Web开发综合案例(员工管理)
本文介绍了基于Web开发的员工管理综合案例,涵盖分页查询、条件分页查询、删除员工和新增员工四大功能模块。通过前后端交互,前端传递参数(如页码、每页记录数、查询条件等),后端使用MyBatis与PageHelper插件处理数据查询与操作。代码结构清晰,包括Controller层接收请求、Service层业务逻辑处理以及Mapper层数据访问,并结合XML动态SQL实现灵活的条件查询。此外,新增与删除功能分别通过POST与DELETE请求完成,确保系统功能完整且高效。
211 7
|
12月前
|
数据挖掘 数据处理 数据库
Pandas数据聚合:groupby与agg
Pandas库中的`groupby`和`agg`方法是数据分析中不可或缺的工具,用于数据分组与聚合计算。本文从基础概念、常见问题及解决方案等方面详细介绍这两个方法的使用技巧,涵盖单列聚合、多列聚合及自定义聚合函数等内容,并通过代码案例进行说明,帮助读者高效处理数据。
1221 32
|
数据可视化 Linux
跟着mpg案例学Seaborn之KDE
跟着mpg案例学Seaborn之KDE
332 1
|
机器学习/深度学习 运维 算法
高斯混合模型(GMM)
高斯混合模型(GMM)
|
数据采集 Web App开发 数据挖掘
使用Python和BeautifulSoup轻松抓取表格数据
使用Python和BeautifulSoup,结合代理IP,可以从网页抓取表格数据,如中国气象局的天气信息。通过requests库发送HTTP请求,BeautifulSoup解析HTML提取表格。安装必要库后,设置代理IP,发送请求,解析HTML找到表格,提取数据并存储。通过Pandas进行数据分析,如计算平均气温。这种方法让数据抓取和分析变得更加便捷。
575 3
使用Python和BeautifulSoup轻松抓取表格数据
|
数据挖掘 Python
掌握Pandas中的相关性分析:corr()方法详解
掌握Pandas中的相关性分析:corr()方法详解
1443 0
|
数据可视化 数据挖掘 API
Python数据分析中的数据可视化:Matplotlib与Seaborn的比较
在Python数据分析领域,数据可视化是至关重要的一环。本文将深入探讨两大流行的数据可视化库Matplotlib与Seaborn的异同,帮助读者更好地选择适合自身需求的工具。
|
机器学习/深度学习 数据可视化 PyTorch
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图
深度学习之如何使用Grad-CAM绘制自己的特征提取图-(Pytorch代码,详细注释)神经网络可视化-绘制自己的热力图
|
敏捷开发 监控 Devops
提升软件测试效率:从手动到自动化的转型之路
在软件开发过程中,测试是确保产品质量和稳定性的重要环节。传统的手动测试虽然直观易懂,但随着项目规模的扩大和复杂度的增加,其效率和覆盖度已无法满足现代开发需求。本文探讨了从手动测试向自动化测试转型的必要性、实施步骤及注意事项,旨在帮助开发团队提高测试效率,保障软件质量。
214 0