基于MaxCompute方案的TFI门店销量调研

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

摘要:TFI拥有全球超过1200家快餐店,是世界知名品牌之一的公司,分别是汉堡王,Sbarro,Popeyes,Usta Donerci和Arby。他们在欧洲和亚洲雇用了2万多人,并在开发新的餐馆方面进行了大量的日常投资。现在,决定何时何地开设新餐馆,主要是基于开发团队的个人判断和经验的主观过程。这个主观数据难以准确地推断出地域和文化。新的餐厅需要大量的时间和资金投入才能开始运作。如果选择餐厅的位置错误,将会导致营业亏损,并在18个月内关闭。现在TFI公布了其在土耳其地区所经营的137家餐厅开张一年以来的销量情况和餐厅的地理位置,所处地区的人口等等一系列进过隐藏处理过后的特征,通过学习这137家餐厅的数据来预测另外100000家餐厅的年度销量情况。

数据信息:
screenshot

利用所提供的数据,建立机器学习的模型,对每一家餐厅未来的年度销量情况进行预测。

一、销量预测架构
1.数据源:数据包括TFI集团旗下的餐厅数据构成的137条训练集和100000条测试集;
2.数据同步至阿里云:使用DataX工具将数据导入到在ODPS建立的表中;
3.流程计算:阿里云建立算法分析流程;
4.分析结果:对三个模型预测结果以及blending后的结果存储于表;
5.数据可视化展示:从数据库中读取结果数据进行可视化展示。

二、分析方法
screenshot
1.本文中的137条训练集和100000测试集来源于真实的TFI集团旗下的餐厅历年的经营情况的数据。
2.获得的数据导入阿里云数加平台,数据表包含有餐厅开张日期、餐厅坐落城市、坐落城市的类型、所在城市的人口统计数据、房产数据、商业数据、收入数据等字段。
3.在数加的算法平台上建立回归预测的算法流程如上图所示。
4.采用数加组件中的缺失值统计,对每条数据缺失比例进行统计,缺失比例离群的判断为离群点,将0值视为缺失值,并将缺失值使用分别用训练集和测试集各字段的均值人工合成填充。
5.将餐厅所在城市按经济层度标准合并为不同层级;餐厅的已经开张时间与销量并没有太大的关系,反而是餐厅开张的时间点很重要,所以这里提取开张的月份,哪一天,哪一个星期来作为特征;将坐落城市类型进行独热向量编码编码处理;对销量进行平衡处理,使用log(x+1)处理,将其数据分布变为近视的正态分布;最后将数值型的特征进行标准化既能加快模型的学习速度,也能将数据放入一个标准分布内,使得数据之间差距尽可能小。
6.将处理完毕的数据分别放入随机森林、L2正则的线性回归、xgboost中进行回归学习,并用网格搜索的方法调整各个模型的超参数使其达到最佳状态。
7.可视化展示,将流程计算的结果,进行可视化展示。

三、年度销量预测结果展示
将预处理后的数据分别放入随机森林、L2正则的线性回归、xgboost中进行回归学习,并用网格搜索的方法调整各个模型的超参数使其达到最佳状态。
调节L2正则的线性回归中惩罚项参数‘alpha’。

screenshot

screenshot

当alpha取值范围在0.001到100时,模型在验证集上的最小均方误差不断减小,在40以后基本维持不变;

screenshot

当alpha取值范围在20到60范围时,模型的最小均方误差持续减小,在60时达到最小,故L2正则的线性回归的正则化惩罚项的取值设置为60;

2.调节随机森林的的‘决策树’颗数,‘决策树’最大深度,‘叶子节点’最小个数等参数。

screenshot

决策树的颗数范围在10到70时,模型在验证集上的最小均方误差变化如上图;

screenshot

screenshot

决策树的颗数范围在1到20时,模型在验证集上最小均方模型变化如上图,在取值为10时,模型有最小均方误差,故将随机森林的决策树颗数设置为10颗;

screenshot

screenshot

决策树的最大深度在3-13时时,最小均方误差均维持不变,由此将决策树最大深度设置为3;

screenshot

screenshot

决策树的叶子节点最小个数取值范围在20到200时,随机森林的最小均方误差变化如上图所示

screenshot

screenshot

决策树的叶子节点最小个数取值范围在2到40时,随机森林的最小均方误差维持不变,故将决策树的叶子节点最小个数取值设置为2;

经过类似的调参过程,分别找到各模型的最优超参数,让其达到最好状态,并用其在测试集进行预测,预测结果可视化如下:

L2正则的线性回归在验证集上年度销量的预测结果

screenshot
screenshot

                                            MaxCompute最佳实践
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
存储 SQL 关系型数据库
大数据量下数据库分页查询优化方案汇总
当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。下面简单说一下我知道的一些方法。
472 2
|
1月前
|
运维 算法 数据可视化
【2021 高校大数据挑战赛-智能运维中的异常检测与趋势预测】2 方案设计与实现-Python
文章详细介绍了参加2021高校大数据挑战赛中智能运维异常检测与趋势预测任务的方案设计与Python实现,包括问题一的异常点和异常周期检测、问题二的异常预测多变量分类问题,以及问题三的多变量KPI指标预测问题的算法过程描述和代码实现。
54 0
|
1月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题二建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的问题二的建模方案和Python代码实现,包括数据预处理、特征工程、模型训练以及预测结果的输出,旨在通过数据分析与建模方法帮助中国移动北京公司提升客户满意度。
43 2
|
1月前
|
机器学习/深度学习 数据采集 大数据
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
本文详细介绍了2022年第三届MathorCup高校数学建模挑战赛大数据竞赛赛道B的题目——北京移动用户体验影响因素研究,提供了问题一的建模方案、代码实现以及相关性分析,并对问题二的建模方案进行了阐述。
35 0
2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛 赛道B 北京移动用户体验影响因素研究 问题一建模方案及代码实现详解
|
1月前
|
机器学习/深度学习 数据采集 算法
【 2021 MathorCup杯大数据挑战赛 A题 二手车估价】初赛复赛总结、方案代码及论文
总结了2021 MathorCup杯大数据挑战赛A题“二手车估价”的初赛和复赛经验,包括题目要求、解题思路、所用方法和结果,提供了详细的数据分析、模型构建、论文撰写和工具使用技巧,并展示了初赛和复赛的论文。
34 2
|
4月前
|
分布式计算 容灾 大数据
MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云
一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。
2378 17
|
4月前
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
217 0
|
10月前
|
分布式计算 大数据 Hadoop
开源大数据方案有哪些
开源大数据方案有哪些
136 0
|
4月前
|
分布式计算 容灾 大数据
MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云
一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。
437 0
|
并行计算 固态存储 Ubuntu
基因组大数据计算: CPU和GPU加速方案深度评测
基因组大数据计算: CPU和GPU加速方案深度评测
249 0
基因组大数据计算: CPU和GPU加速方案深度评测

热门文章

最新文章