因Pandas版本较低，这个API实现不了咋办？-阿里云开发者社区

因Pandas版本较低，这个API实现不了咋办？

2022-05-27 453

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前几天发表了一篇推文，分享了Pandas中非常好用的一个API——explode，然而今天又发生了戏剧性的一幕：因Pandas版本过低系统提示'Series' object has no attribute 'explode'！好吧，好用的东西永远都是娇贵的，这个道理没想到在代码中也适用。所以，今天就以此为题展开拓展分析，再输出一点Pandas干货……

问题描述：一个pandas dataframe数据结构存在一列是集合类型（即包含多个子元素），需要将每个子元素展开为一行。这一场景运用pandas中的explodeAPI将会非常好用，简单高效。然而，由于线上部署pandas版本为0.23，而explode API是在0.25以后版本中引入，所以无法使用。为解决这一问题，灵活运用apply+stack可破此难题。

explode函数在0.25版本加入，其中ignore_index则是在1.1版本增加

既然explode无法直接使用，那么就必须尝试用其他方法实现相同的效果。这里首先给出执行explode后的目标效果：

观察explode执行后的目标效果，实际上颇有SQL中经典问题——列转行的味道。也就是说，B列实际上可看做是多列的聚合效果，然后在多列的基础上执行列转行即可。基于这一思路，可将问题拆解为两个子问题：

含有列表元素的单列分为多列
多列转成多行

而这两个子问题在pandas丰富的API中其实都是比较简单的，例如单列分为多列，那么其实就是可直接用pd.Series即可完成拆解，具体如下图所示。其中用到的一个小技巧是：为保留其他列信息可先将其置于索引，最后可再复位索引即可。

至此，实际上是完成了单列向多列的转换，其中由于每列包含元素个数不同，展开后的长度也不尽一致，pandas会保留最长的长度，并将其余填充为空值(正因为空值的存在，所以原本的整数类型自动变更为小数类型)。值得一提，这里的空值在后续处理中将非常有用。

在完成展开多列的基础上，下面要做的就是列转行，即将多列信息转换逐行显示，这在SQL中是非常经典的问题，在pandas中自然也有所考虑，所以就需要引出第二个API：stack！stack原义为堆栈的意思，放到pandas中就是将元素堆叠起来——从宽表向长表转换。看下stack的官方注释，是说将一个DataFram转换为多层索引的Series，其中原来的columns变为第二层索引。

ok，那么可以预见的是在刚才获得的多列DataFrame基础上执行stack，将实现列转行堆叠的效果并得到一个Series。具体来说，结果如下：

同时，我们还发现不仅实现了列压缩为行，还顺带把原先多出来的NaN空值列给过滤了，简直是意外收获。实际上，这并不意外，因为stack设置了一个默认参数dropna=True。至此，已经基本实现了预定的功能，剩下的就只需将双层索引复位到数据列即可。当然，这里复位之后会增加两列数据，除了原本需要的一列外另一列是多余的，仅需将其drop掉即可，当然还需完成列名的变更。完整代码如下：

虽然以上实现不如直接一句explode来得优雅，但也着实实现了相同的效果，而且实际上更有成就感，不是吗！

因Pandas版本较低，这个API实现不了咋办？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

因Pandas版本较低，这个API实现不了咋办？

热门文章

最新文章

相关课程

相关电子书

相关实验场景