上图学名叫波士顿矩阵分析图,大白话四象限图。这种图经常用于两个维度的散点图中,根据特定的分割线(均值,目标值,实际值等)将数据分为四类,使人一目了然。
常用的场景为分析两个维度的变化比如:比较商品的库存天数和库存周转率,充值人数和每付费用户平均收益,购物篮系数和购物篮数量等。
如何使用 Python 画出此图是本文的目标,事不宜迟,赶快开始!
任何复杂的 Python 绘图都不是一蹴而就的,而是先画出基础图形,后在此基础上按需添加元素并优化而成。这里以一组城市经济数据为例来讲解绘图步骤
基础散点图
df = pd.read_csv('data.csv') df; df.plot(kind='scatter', x='经济总量水平', y='人均水平')
简洁又朴素的散点图,仅需一行代码。离期望成图还差几步
- 为每个点添加对应的城市名称
- 添加特定的分割线(均值,目标值,实际值)
- 背景添加网格
- 一些其他的定制需求...
图像优化
成图如下:
从上图可以看出:
- 广西,河北,福建三地的人均水平和经济总量水平都偏低
- 上海的人均经济水平很高,但经济总量水平缺只是略优于均值
- 广东的人均经济水平稍次于均值,但经济总量水平很高
- 等等~
当然,如果我们通过添加数量更多的定制线也可以实现常用的九宫格图
最后总结一下,Python 的一些绘图方法、参数看似琐碎,但积累到一定程度后,便可以发现许多技巧都存在共通之处。小事情重复做也会成为大麻烦,所以高手都懂得分类处理。
贯通了 3 个核心,我们才能省时省事,成为别人眼中的高手:
- 大量重复的工作懂得批处理。
- 反复要做的固定操作固化成 " 模板 “,” 套路 "。
- 碰到异常情况,知道如何准确高效的解决。
所以我们可以将四象限图的绘制方法封装成自己的函数以供快捷调用,篇幅原因就不多展示了。
上文核心代码如下:
import matplotlib.pyplot as plt # 为每个点添加对应的城市名称 plt.figure(figsize=(10, 8)) # 基础散点图:这里需要单独拆开 x,y 轴和希望配对的标签,为下面的轮子做准备 x, y = df['经济总量水平'], df['人均水平'] label = df['area'] plt.scatter(x, y) plt.xlabel('经济总量水平'); plt.ylabel('人均水平') # 对散点图中的每一个点进行文字标注 ## 固定代码,无需深究,拿来即用 for a,b,l in zip(x,y,label): # zip 拉链函数将其配对组合 plt.text(a, b+0.1, '%s.' % l, ha='center', va='bottom', fontsize=14) # 0.1 向上轻微偏移 # 添加特定分割线 ## vlines: vertical 垂直于 x 轴的线,在变量'经济总量'的均值处开始画, ## y 轴的范围[1.5, 3] plt.vlines(x=df['经济总量水平'].mean(), ymin=-1.5, ymax=3, colors='red', linewidth=2) plt.hlines(y=df['人均水平'].mean(), xmin=-4, xmax=6, colors='red', linewidth=2) # 背景网格 plt.grid(True) # 定制需求:隐去四周的边框线条 # sns.despine(trim=True, left=True, bottom=True)