因Pandas版本较低,这个API实现不了咋办?

简介: 前几天发表了一篇推文,分享了Pandas中非常好用的一个API——explode,然而今天又发生了戏剧性的一幕:因Pandas版本过低系统提示'Series' object has no attribute 'explode'!好吧,好用的东西永远都是娇贵的,这个道理没想到在代码中也适用。所以,今天就以此为题展开拓展分析,再输出一点Pandas干货……

640.png


问题描述:一个pandas dataframe数据结构存在一列是集合类型(即包含多个子元素),需要将每个子元素展开为一行。这一场景运用pandas中的explodeAPI将会非常好用,简单高效。然而,由于线上部署pandas版本为0.23,而explode API是在0.25以后版本中引入,所以无法使用。为解决这一问题,灵活运用apply+stack可破此难题。


640.png

explode函数在0.25版本加入,其中ignore_index则是在1.1版本增加


既然explode无法直接使用,那么就必须尝试用其他方法实现相同的效果。这里首先给出执行explode后的目标效果:


640.png


观察explode执行后的目标效果,实际上颇有SQL中经典问题——列转行的味道。也就是说,B列实际上可看做是多列的聚合效果,然后在多列的基础上执行列转行即可。基于这一思路,可将问题拆解为两个子问题:

  • 含有列表元素的单列分为多列
  • 多列转成多行


而这两个子问题在pandas丰富的API中其实都是比较简单的,例如单列分为多列,那么其实就是可直接用pd.Series即可完成拆解,具体如下图所示。其中用到的一个小技巧是:为保留其他列信息可先将其置于索引,最后可再复位索引即可。


640.png


至此,实际上是完成了单列向多列的转换,其中由于每列包含元素个数不同,展开后的长度也不尽一致,pandas会保留最长的长度,并将其余填充为空值(正因为空值的存在,所以原本的整数类型自动变更为小数类型)。值得一提,这里的空值在后续处理中将非常有用。


在完成展开多列的基础上,下面要做的就是列转行,即将多列信息转换逐行显示,这在SQL中是非常经典的问题,在pandas中自然也有所考虑,所以就需要引出第二个API:stack!stack原义为堆栈的意思,放到pandas中就是将元素堆叠起来——从宽表向长表转换。看下stack的官方注释,是说将一个DataFram转换为多层索引的Series,其中原来的columns变为第二层索引。


640.png


ok,那么可以预见的是在刚才获得的多列DataFrame基础上执行stack,将实现列转行堆叠的效果并得到一个Series。具体来说,结果如下:


640.png


同时,我们还发现不仅实现了列压缩为行,还顺带把原先多出来的NaN空值列给过滤了,简直是意外收获。实际上,这并不意外,因为stack设置了一个默认参数dropna=True。至此,已经基本实现了预定的功能,剩下的就只需将双层索引复位到数据列即可。当然,这里复位之后会增加两列数据,除了原本需要的一列外另一列是多余的,仅需将其drop掉即可,当然还需完成列名的变更。完整代码如下:


640.png


虽然以上实现不如直接一句explode来得优雅,但也着实实现了相同的效果,而且实际上更有成就感,不是吗!


640.png

目录
相关文章
|
7月前
|
存储 开发框架 小程序
社区每周丨小程序 CLI 1.8.10 版本上线及基础API新增接口(7.3-7.7)
社区每周丨小程序 CLI 1.8.10 版本上线及基础API新增接口(7.3-7.7)
87 11
|
4月前
|
API Python
速通pandas 2.0新版本干货内容
速通pandas 2.0新版本干货内容
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之海外是否可以访问人物动漫化的api版本
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
55 0
|
4月前
|
XML SQL 前端开发
pandas 1.3版本主要更新内容一览
pandas 1.3版本主要更新内容一览
|
5月前
|
SQL 并行计算 API
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
Dask是一个用于并行计算的Python库,它提供了类似于Pandas和NumPy的API,但能够在大型数据集上进行并行计算。
|
4月前
|
Oracle Java 关系型数据库
JDK版本特性问题之在 JDK 11 中,HTTP Client API 的特点有哪些
JDK版本特性问题之在 JDK 11 中,HTTP Client API 的特点有哪些
|
4月前
|
缓存 JavaScript 前端开发
微信 JS-SDK Demo “分享信息设置” API 及数字签名生成方法(NodeJS版本)
微信 JS-SDK Demo “分享信息设置” API 及数字签名生成方法(NodeJS版本)更新时间(2020-10-29)
|
5月前
|
人工智能 自然语言处理 数据挖掘
详解:Google AI Gemini中文版本(基于API 开发实现对话)
谷歌旗下的人工智能应用Gemini,自问世以来凭借其强大的计算能力和高效的处理性能,迅速成为全球用户的宠儿。作为一款由世界顶尖科技公司开发的产品,Gemini不仅在语言处理、图像识别、数据分析等领域表现出色,还在多种复杂任务中展现了其卓越的智能决策能力。然而,由于网络限制等问题,国内用户往往无法直接访问和使用Gemini的网站,这也导致了许多技术爱好者和专业人士未能亲身体验这一先进技术所带来的便利和强大功能。
|
5月前
|
Java API PHP
【亲测有效,官方提供】php版本企查查api接口请求示例代码,php请求企查查api接口,thinkphp请求企查查api接口
【亲测有效,官方提供】php版本企查查api接口请求示例代码,php请求企查查api接口,thinkphp请求企查查api接口
159 1
|
6月前
|
存储 API 容器
技术经验分享:fmt的API介绍(版本:7.0.1)
技术经验分享:fmt的API介绍(版本:7.0.1)
41 0