Pandas 数据合并与整形1｜学习笔记-阿里云开发者社区

Pandas 数据合并与整形1｜学习笔记

2022-11-22 165

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 Pandas 数据合并与整形1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践：Pandas 数据合并与整形1】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/1067/detail/15391

Pandas 数据合并与整形1

下面来学习一下 Panda s的第四个内容：数据合并与整形，第一部分有三节，第一部分里面有整体介绍

Data Wrangling: Join, Combine,and Reshape(数据加工整理：连接，合并，整形)
在很多应用中，数据通常散落在不同的文件或数据库中，并不方便进行分析。这一章主要关注工具，能帮我们 combine，join , rearrange数据。
（1）中的操作名
join:连接
combine：合并
reshape:整形
（2）中的操作名
merge：归并
concatenate：串联
concatenate：串联
（3）中的操作名
pivot：旋转，透视
stack：堆叠

（4）Hierarchical Indexing (分层索引)
Hierarchical Indexing 是 pandas 中一个重要的特性，能让我们在一个轴(axis),也就是行或者是列上有多个 index levels (索引层级)，比如说第一级索引，第二级索引……第n级索引。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子，构建一个 series，其 index 是 a list of lists (嵌套列表):
import pandas as pd
import numpy as np
data = pd .Series(np .random .randn (9),//构造series，随机9个数
index=[[‘a’, ‘a ',‘a'， ‘b'， ‘b', ‘c', ‘c', ‘d', ‘d'],[1,2,3,1,3,1,2,2，3]])//中括号里是索引，中括号里又有中括号表示多级索引，[‘a’, ‘a ',‘a'， ‘b'， ‘b', ‘c', ‘c', ‘d', ‘d']表示第一级索引，[1,2,3,1,3,1,2,2，3]表示第二级索引，当然更多时候从零开始，第零级索引，第一级索引
data
a

1 0.958453
2 -2.237030

3 0.271493

b

1 0.604374
3 -0.112334

c

1 1.112763

2 -0.321422

d 2 -0.331968

3 0.392504// abcd 表示第零级索引，第二列表示第一级索引

dtype：float64

其中我们看到的是把 Multilndex 作为 index (索引)的。层次索引

多级索引一般被称为 Multilndex ，接下来来查一下它的

data.index

MultiIndex([(‘a’,1),

(‘a’,2),

(‘a’,3),

(‘b’,1),

(‘b’,3),

(‘c’,1),

(‘c’,2),

(‘d’,2),

(‘d’,3)],//每一个是一个小元组

对于这种分层索引对象，partial indexing (部分索引)也是能做到的，这种方法可以让我们简洁地选中数据的一部分：
data[‘b’]
1 0.694374
3 -0.112334//将上面 b 里的值拿出来
dtype：float64
data[‘b’:‘c’]
b 1 -0.427638
3 0.663994
c 1 1.577227
2 -1.583739//取 b 和 c 的索引值，并得到结果
dtype：float64
data .loc[‘b’,’d’]]
b 1 -0.427638

3 0.663994

d 2 0.966053

3 0.236567//选择 b 和 d，第一列是零级索引，第二列是一级索引

dtype：float64
selection (选中)对于一个内部层级(inner level)也是可能的：

注意下面这个地方，这是很特别的
data.loc[:, 2] #一般中括号中的逗号，左边是行，右边是列，但对层次索引来说，有所不同，逗号左边是第一级索引，右边是第一级索引中取值是2的

a 0.521974
c -1.583739
d 0.966053//根据上面的内容可知，运行的结果是索引中取值是2的
dtype：float64
分层索引的作用是改变数据的形状，以及做一些基于分组的操作(group-based)比如做一个数据透视表(pivot table)。例子，我们可以用unstack来把数据进行重新排列，产生一个 DataFrame （数据框）：

data.unstack()

1 2 3
a 2.015673 -2.237030 0.271493
b 0.604374 NaN -0.112334
c 1.112763 -0.321422 NaN
d NaN -0.331968 0.392504//运行发现第零级索引作为行索引，第一级索引作为列的名字

frame
state Ohio Colorado
colorGreenRed Green
key1 key2
1 0 1 2
2 3 4 5
1 6 7 8
2 9 10 11

这里我们要注意区分行标签(rowlabel)中索引的名字

相反的操作是stack:
data.unstack().stack()
a 1 2.015673
2 -2.237030

3 0.271493
b 1 0.604374
3 -0.112334
c 1 1.112763
2 -0.321422
d 2 -0.331968
3 0.392504//还原成原来的层次索引
dtype：float64
之后的章节会对unstack和stack做更多介绍。
对于dataframe，任何一个axis(轴)都可以有一个分层索引：

frame = pd.DataFrame(np.arange(12).reshape((4, 3)), index=[[‘a’, ‘a’, ‘b’, ‘b’], [1, 2, 1, 2]],
columns=[[‘Ohio’, ‘Ohio’, ‘Colorado’],
[‘Green’, ‘Red’, ‘Green’]]) //创建12个数据组建四行三列,他的行和列都是一个层次索引
frame
Ohio Colorado

Green Red Green
a 1 0 1 2

2 3 4 5
b 1 6 7 8
2 9 10 11

每一层级都可以有一个名字(字符串或任何python对象)。如果有的话，这些会显示在输出中：

frame.index.names =[‘key1’, ‘key2’]
frame.columns.names =[‘state’,‘color’]

Frame

state Ohio Colorado

color Green Red Green

key1 key2

1 0 1 2

a
2 3 4 5

1 6 7 8

b2 9 10 11

这里我们要注意区分行标签(row label)中索引的名字‘state’,‘color’。

如果想要选中部分列(partial column indexing)的话，可以选中一组列(groups of columns)：

frame[‘Ohio’]

color Green Red

key1 key2
1 0 1
a
2 3 4
1 6 7

B

2 9 10 //可以到上面找相应的数据对应一下

Multilndex能被同名函数创建，而且可以重复被使用；在 DataFrame中给列创建层级名可以通过以下方式：
pd.MultiIndex.from_arrays([[‘Ohio’,‘Ohio’,‘Colorado’],[‘Green’, ‘Red’, ‘ Green’]],
names=[‘’state’, ‘color’])
MultiIndex([(‘Ohio’, ‘Green’),
(‘Ohio’, ‘Red’),

(‘Colorado’, ‘Green’ )],
names=[‘state’, ‘color’ ])

Pandas 数据合并与整形1｜学习笔记

Pandas 数据合并与整形1

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pandas 数据合并与整形1｜学习笔记

Pandas 数据合并与整形1

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书