问题描述:一个pandas dataframe数据结构存在一列是集合类型(即包含多个子元素),需要将每个子元素展开为一行。这一场景运用pandas中的explodeAPI将会非常好用,简单高效。然而,由于线上部署pandas版本为0.23,而explode API是在0.25以后版本中引入,所以无法使用。为解决这一问题,灵活运用apply+stack可破此难题。
explode函数在0.25版本加入,其中ignore_index则是在1.1版本增加
既然explode无法直接使用,那么就必须尝试用其他方法实现相同的效果。这里首先给出执行explode后的目标效果:
观察explode执行后的目标效果,实际上颇有SQL中经典问题——列转行的味道。也就是说,B列实际上可看做是多列的聚合效果,然后在多列的基础上执行列转行即可。基于这一思路,可将问题拆解为两个子问题:
- 含有列表元素的单列分为多列
- 多列转成多行
而这两个子问题在pandas丰富的API中其实都是比较简单的,例如单列分为多列,那么其实就是可直接用pd.Series即可完成拆解,具体如下图所示。其中用到的一个小技巧是:为保留其他列信息可先将其置于索引,最后可再复位索引即可。
至此,实际上是完成了单列向多列的转换,其中由于每列包含元素个数不同,展开后的长度也不尽一致,pandas会保留最长的长度,并将其余填充为空值(正因为空值的存在,所以原本的整数类型自动变更为小数类型)。值得一提,这里的空值在后续处理中将非常有用。
在完成展开多列的基础上,下面要做的就是列转行,即将多列信息转换逐行显示,这在SQL中是非常经典的问题,在pandas中自然也有所考虑,所以就需要引出第二个API:stack!stack原义为堆栈的意思,放到pandas中就是将元素堆叠起来——从宽表向长表转换。看下stack的官方注释,是说将一个DataFram转换为多层索引的Series,其中原来的columns变为第二层索引。
ok,那么可以预见的是在刚才获得的多列DataFrame基础上执行stack,将实现列转行堆叠的效果并得到一个Series。具体来说,结果如下:
同时,我们还发现不仅实现了列压缩为行,还顺带把原先多出来的NaN空值列给过滤了,简直是意外收获。实际上,这并不意外,因为stack设置了一个默认参数dropna=True。至此,已经基本实现了预定的功能,剩下的就只需将双层索引复位到数据列即可。当然,这里复位之后会增加两列数据,除了原本需要的一列外另一列是多余的,仅需将其drop掉即可,当然还需完成列名的变更。完整代码如下:
虽然以上实现不如直接一句explode来得优雅,但也着实实现了相同的效果,而且实际上更有成就感,不是吗!