菜鸟—需求预测与分仓规划冠军——“商品小A”团队赛后总结

简介: 在菜鸟—需求预测与分仓规划比赛上,“商品小A”团队获得了冠军。队长袁光浩分享了“商品小A”团队的数据探索以及算法实现过程。

在菜鸟—需求预测与分仓规划比赛上,“商品小A”团队获得了冠军。队长袁光浩分享了“商品小A”团队的数据探索以及算法实现过程。

零售数据分析的职责是根据客户的数据做客户的数据分析报告,客户可以基于报告得到的结论对商业决定做修正。

赛题背后的商业需求

按照官方的说法,对未来商品需求进行准确的预测,可以帮助商家自动化很多供应链过程中的决策。这些以数据驱动的供应链能够帮助商家大幅降低运营成本,提升用户的体验,对整个行业的效益提升起到一定作用。此时,大家可能有一个疑问,销售的带链呢?货品如果是很少的,意味着商家失去了销售的机会,这其实是一种隐性的损失。

数据探索

比赛提供的数据中,最引人注目的是,在20万商品里面最后出现的日期中最早的那一个,即2015年12月21日,这意味着这个商品在整个数据集里面是有效的,我们需要预测其在2016年年初的销量。根据销售时间和总量的分析,删除促销热的数据之后,发现其是递增的。这些数据为方案的决策起到了一定的作用。

其中,有一个商品A,经过2015年春节之后它就不再销售了,经过在同一个供应商找与A商品类似的商品,但是并没有找到,这在实际的应用中比较罕见。但是为什么出现这样的情况呢?这说明了数据脱敏做的非常好,商家将数据隐藏起来保障其权益,其他人难以通过数据追踪商家运营模式。最初的思路是按照我们的工作习惯,去寻找其主流商品,找到其搭配的商品,但是这种方法是基本做不到的。

另外一种情况,有一些商品的生命周期比较长,在2014年的年末和2015年的年末走势是比较相近的,我们可以利用这个特征来预测其下一年的销售情况。

数据分析预测

通过上述的数据探索,我们大致可以了解数据的构成。大部分商品是从2015年开始销售的,在2014年并没有留下太多对我们有用的信息。对于大量的数据,我们怎么挖掘信息?首先,可以通过时间序列来探测,但是可能损失一些重要的特征,比如相同种类的商品(同一商品,或者不同商家的)竞争关系就会丢失掉。

更优的做法是采用机器学习的方法。具体的做法是通过近期的销量情况,去研究此后两周销量总量的影响情况。我们需要建立预测模型,利用回归分析方法进行预测。我们需要专门针对数据集做一个分类,因为对于主力商品,商品的规划会特别关注商品的销售曲线,这些都人为可以控制的(通过价格等因素)。所以对于找出规律的这些商品,需要单独拿出来,因为剩下的大部分数据中还会有很多的噪声,如果一起训练的话会影响这部分商品的预测。对两部分商品分别做回归预测过程中,对双十一这种特殊的销售情形需要做一定的过滤。

特征曲线确定好之后,开始做数据深层的准备。在这个阶段同时进行的还有数据的处理,比如把缺失的数据用非聚划算销量算法补齐,过滤算法也是在这个阶段完成的。为什么要过滤掉具有波峰的数据?因为经过双十一之后,商家在一月初二月初做促销的可能性就会降低,虽然这不一定正确,但是在缺乏商家有效信息的情况下,选择一个保险的策略是正确的。

可以利用滑动窗口的方法创建训练集和验证集。创建验证集可以让我们有快速的方法验证我们的思路。我们把最后14天的非计划的数量值作为目标值,把之前14天的各种数据计算出来作为特征值,向前滑动14天。以此类推,做10个窗口。并且,还需要对任务空间产生的数据集做一次处理。首先对训练集进行训练,得到模型之后对验证集做一次预测。然后把预测不准的窗口从训练集删除,重新将其和验证集合并,对线上的测试指标做真正的预测。

最终采用的模型是线性回归和xgboost模型。分别建模、运算,然后对运行的结果做一个合并,根据验证集改变模型的权重。把分仓和母仓分别建模,因为有些商户做活动的时候是全国所有的仓库一起升一起降,有些商户是依次出现的,有些则是没有规律的,因此分别建模会比较好。

总结

如果有更丰富的数据,比如商家的计划、库存,那么我们可以做更好的预测。如果对业务越了解,建立的模型就越接近真实情况。并且,组合不同的算法往往是更有效的。
相关文章
|
6月前
|
人工智能 安全 数据中心
5个热门和4个冷门的IT领导趋势
5个热门和4个冷门的IT领导趋势
|
7月前
|
算法 决策智能
如何用算法规划完美的相亲假期 - 小美的春节排班挑战
排班是一个经典的组合优化问题,而相亲排班可谓是它的一种别出心裁的应用。小美的挑战在于,如何在有限的8天空闲时间内,安排至少12场有效的相亲,并且满足诸如“父母严选”和通勤时间等一系列复杂的条件。
|
机器学习/深度学习 数据可视化 数据挖掘
第四届“泰迪杯”数据分析技能赛-赛题A:《通讯产品销售和盈利能力分析》报告
第四届“泰迪杯”数据分析技能赛-赛题A:《通讯产品销售和盈利能力分析》报告
764 0
|
双11
报告发布|复盘2021届双11,拼的是“经营力”
编者按: 历经13年演化,双11成为无限竞争的集中公演场,品牌的严酷挑战与最大机遇并存。通过品牌升级、技术创新、经营力重塑三大计划,阿里妈妈在双11助力品牌商家通过精准投入,获得确定回报。 在平台的引领下,双11进入全新“经营力”时代。这让双11不再是生意的终点。那双11又会变成什么呢?
127 0
|
机器学习/深度学习 算法 Python
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(3)
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品 1. A 题 通讯产品销售和盈利能力分析 简介 一、背景 二、目标 三、任务
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(3)
|
数据可视化 数据挖掘 定位技术
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(1)
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品 1. A 题 通讯产品销售和盈利能力分析 简介 一、背景 二、目标 三、任务
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(1)
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(2)
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品 1. A 题 通讯产品销售和盈利能力分析 简介 一、背景 二、目标 三、任务
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(2)
|
数据可视化 定位技术
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(4)
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品 1. A 题 通讯产品销售和盈利能力分析 简介 一、背景 二、目标 三、任务
泰迪杯A题通讯产品销售和盈利能力分析一等奖作品(4)
|
机器学习/深度学习 人工智能 自然语言处理
IDC最新报告复盘疫情大考 百度AI交高分答卷
IDC最新报告复盘疫情大考 百度AI交高分答卷
242 0
IDC最新报告复盘疫情大考 百度AI交高分答卷
|
机器学习/深度学习 数据采集 自然语言处理
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?
小叽导读:买家评价是消费者购物后对商品的真实反馈。多数买家评价中包含了“消费者常问问题”的回答。比如冰箱,大家可能关心“声音大吗?”、“耗电吗?”、“容量大不大?”,这些问题通常可以在评论区找到其他消费者的使用反馈。这部分信息能够有效地帮助消费者购买到心仪的产品,那么,如何让这些评论匹配到不同人的需求?接下来, 天猫的“大家最关心”告诉你答案。
1426 0
商品评价里藏了一座“宝藏”,阿里工程师如何挖掘?