单表操作完成,批量操作,只需要建立好循环+合并关系,并引入日期列,在合并结果中对不同的表数据做好区分:
result = pd.DataFrame() for name in os.listdir(): df = pd.read_excel(name) df = df.sort_values('品牌搜索人数',ascending = False) df['搜索人数排名'] = df['品牌搜索人数'].rank(ascending = False) df['搜索份额'] = df['品牌搜索人数'] / df['品牌搜索人数'].sum() brand = '凌云' brand_data = df.loc[df['品牌'].str.find(brand) != -1,:] other = df.loc[df['品牌'].str.find(brand) == -1,:] other_top5 = other.iloc[:5,:] data = pd.concat([brand_data,other_top5]) data['日期'] = name[4:-5] result = pd.concat([result,data])
Pandas批量操作,就是如此丝滑~
第一个需求搞定。
项目二:品牌投放分析
“在现有数据基础上,找到最近一年投放效果还不错的品牌,要吹吹牛,做年度表彰。”
首席吹牛官以成本数据过于机密为由,除了说各品牌费用基本无差别之外,没有透露任何关于成本方面的数据,我们自然也无法计算投放ROI了这些核心指标了。
目前能够拿到的,只有品牌、搜索人数、点击人数和对应支付人数这几个指标。
要找到最近一年投放效果还不错的品牌,我们可以用漏斗思维,从量级(人数)和效率(转化率)两个角度来考虑:
在费用无差别的情况下:
- 人群基数大(搜索人数),表示投放的心智效果不错,让更多用户被广告触达后,在平台主动搜相关的品牌。
- 搜索-点击转化率高,代表了搜索结果的精准度,搜索后展示页面的吸引力等等
- 点击-支付转化率高,更可能受产品详情页面、活动力度等影响
在项目二场景中,三个指标越高越好。接下来,我们就结合搜索人数,搜索-点击转化率和点击-支付转化率,用Pandas做一波分析。
要对最近一年的数据做分析,我们先把2020年所有数据合并,拿到汇总表:
再按品牌的维度,做指标汇总:
计算对应的搜索-点击转化率,点击-支付转化率:
基础数据齐活了!
从仅有的head5数据可以看到,双敏品牌以160万的搜索人数独占鳌头,但是!排名第二的九方,虽然搜索人数少了40多万,却能凭借较高的搜索-点击转化率和点击-支付转化率,在支付人数上远超双敏,成为支付之王。
表格太晦涩,我们画个图吧:
注:因为分析背景是无差别投放,搜索人数重要性非常高,为了可视化简洁清晰,我们简单粗暴的筛选TOP15品牌来绘图
根据气泡图,我们按照搜索-点击转化率和点击-支付转化率的高低划分了4个区间:
- 区间1:高搜索-点击转化,高点击-支付转化
- 区间2:低搜索-点击转化,高点击-支付转化
- 区间3:低搜索-点击转化,低点击-支付转化
- 区间4:高搜索-点击转化,低点击-支付转化
再结合数据表,看的更加清晰:
结果显而易见,高搜索量级的品牌,主要呈现出两种形态:
- 以双敏(排名第1)、巨奥(排名第3)为代表的品牌主要分布在第三区间,量级较大,但两种转化效率均需要进一步提升,品牌没能较好的承接蜂拥而至的流量。
- 九方(排名第2)、商软(排名第4)则是高搜索量级、高转化效率的代表,从现有数据看,他们才是不吹牛集团学习的榜样。