Pandas 数据合并与整形1|学习笔记

简介: 快速学习 Pandas 数据合并与整形1

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践Pandas 数据合并与整形1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15391


Pandas 数据合并与整形1

下面来学习一下 Panda s的第四个内容:数据合并与整形,第一部分有三节,第一部分里面有整体介绍

Data Wrangling: Join, Combine,and Reshape(数据加工整理:连接,合并,整形)
在很多应用中,数据通常散落在不同的文件或数据库中,并不方便进行分析。这一章主要关注工具,能帮我们 combine,join , rearrange数据。
(1)中的操作名
join:连接
combine:合并
reshape:整形
(2)中的操作名
merge:归并
concatenate:串联
concatenate:串联
(3)中的操作名
pivot:旋转,透视
stack:堆叠

(4)Hierarchical Indexing (分层索引)
Hierarchical Indexing 是 pandas 中一个重要的特性,能让我们在一个轴(axis),也就是行或者是列上有多个 index levels  (索引层级),比如说第一级索引,第二级索引……第n级索引。它可以让我们在低维格式下处理高维数据。这里给出一个简单的例子,构建一个 series,其 index 是 a list of lists (嵌套列表):
import pandas as pd
import numpy as np
data = pd .Series(np .random .randn (9),//构造series,随机9个数
index=[[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d'],[1,2,3,1,3,1,2,2,3]])//中括号里是索引,中括号里又有中括号表示多级索引,[‘a’, ‘a ',‘a', ‘b', ‘b', ‘c', ‘c', ‘d', ‘d']表示第一级索引,[1,2,3,1,3,1,2,2,3]表示第二级索引,当然更多时候从零开始,第零级索引,第一级索引
data
a

1   0.958453
2  -2.237030

3  0.271493

b

1  0.604374
3 -0.112334

c

1  1.112763

2 -0.321422

d  2 -0.331968

3 0.392504// abcd 表示第零级索引,第二列表示第一级索引

dtype:float64

其中我们看到的是把 Multilndex 作为 index (索引)的。层次索引

多级索引一般被称为 Multilndex ,接下来来查一下它的

data.index

MultiIndex([(‘a’,1),

(‘a’,2),

(‘a’,3),

(‘b’,1),

(‘b’,3),

(‘c’,1),

(‘c’,2),

(‘d’,2),

(‘d’,3)],//每一个是一个小元组

对于这种分层索引对象,partial indexing (部分索引)也是能做到的,这种方法可以让我们简洁地选中数据的一部分:
data[‘b’]
1   0.694374
3 -0.112334//将上面 b 里的值拿出来
dtype:float64
data[‘b’:‘c’]
b   1  -0.427638
3   0.663994
c  1  1.577227
2 -1.583739//取 b 和 c 的索引值,并得到结果
dtype:float64
data .loc[‘b’,’d’]]
b   1  -0.427638

3   0.663994

d   2   0.966053

3   0.236567//选择 b 和 d,第一列是零级索引,第二列是一级索引

dtype:float64
selection (选中)对于一个内部层级(inner level)也是可能的:

注意下面这个地方,这是很特别的
data.loc[:, 2] #一般中括号中的逗号,左边是行,右边是列,但对层次索引来说,有所不同,逗号左边是第一级索引,右边是第一级索引中取值是2的

a   0.521974
c -1.583739
d  0.966053//根据上面的内容可知,运行的结果是索引中取值是2的
dtype:float64
分层索引的作用是改变数据的形状,以及做一些基于分组的操作(group-based)比如做一个数据透视表(pivot table)。例子,我们可以用unstack来把数据进行重新排列,产生一个 DataFrame (数据框):

data.unstack()

1         2 3
a   2.015673   -2.237030   0.271493
b   0.604374      NaN     -0.112334
c   1.112763   -0.321422     NaN
d        NaN   -0.331968   0.392504//运行发现第零级索引作为行索引,第一级索引作为列的名字

frame
state Ohio Colorado
colorGreenRed Green
key1 key2
1 0 1 2
2 3 4 5
1 6 7 8
2 9 10 11

这里我们要注意区分行标签(rowlabel)中索引的名字

相反的操作是stack:
data.unstack().stack()
a 1 2.015673
2 -2.237030

3 0.271493
b 1 0.604374
3 -0.112334
c  1 1.112763
2 -0.321422
d 2 -0.331968
3   0.392504//还原成原来的层次索引
dtype:float64
之后的章节会对unstack和stack做更多介绍。
对于dataframe,任何一个axis(轴)都可以有一个分层索引:

frame = pd.DataFrame(np.arange(12).reshape((4, 3)),      index=[[‘a’, ‘a’, ‘b’, ‘b’], [1, 2, 1, 2]],
columns=[[‘Ohio’, ‘Ohio’, ‘Colorado’],
[‘Green’, ‘Red’, ‘Green’]]) //创建12个数据组建四行三列,他的行和列都是一个层次索引
frame
Ohio Colorado

Green Red Green
a 1        0   1   2

2      3   4    5
b 1      6   7    8
2      9   10   11

每一层级都可以有一个名字(字符串或任何python对象)。如果有的话,这些会显示在输出中:

frame.index.names =[‘key1’, ‘key2’]
frame.columns.names =[‘state’,‘color’]

Frame

state Ohio Colorado

color Green Red Green

key1 key2

1      0    1   2

a
2      3    4   5

1      6    7   8

b2      9    10  11

这里我们要注意区分行标签(row label)中索引的名字‘state’,‘color’。

如果想要选中部分列(partial column indexing)的话,可以选中一组列(groups of columns):

frame[‘Ohio’]

color  Green  Red

key1 key2
1    0      1
a
2    3      4
1    6     7

B

2   9      10 //可以到上面找相应的数据对应一下

Multilndex能被同名函数创建,而且可以重复被使用;在 DataFrame中给列创建层级名可以通过以下方式:
pd.MultiIndex.from_arrays([[‘Ohio’,‘Ohio’,‘Colorado’],[‘Green’, ‘Red’, ‘ Green’]],
names=[‘’state’,  ‘color’])
MultiIndex([(‘Ohio’, ‘Green’),
(‘Ohio’, ‘Red’),

(‘Colorado’, ‘Green’ )],
names=[‘state’, ‘color’ ])

相关文章
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
454 0
|
7月前
|
数据采集 安全 数据挖掘
Pandas数据合并:10种高效连接技巧与常见问题
在数据分析中,数据合并是常见且关键的步骤。本文针对合并来自多个来源的数据集时可能遇到的问题,如列丢失、重复记录等,提供系统解决方案。基于对超1000个复杂数据集的分析经验,总结了10种关键技术,涵盖Pandas库中`merge`和`join`函数的使用方法。内容包括基本合并、左连接、右连接、外连接、基于索引连接、多键合并、数据拼接、交叉连接、后缀管理和合并验证等场景。通过实际案例与技术原理解析,帮助用户高效准确地完成数据整合任务,提升数据分析效率。
704 13
Pandas数据合并:10种高效连接技巧与常见问题
|
10月前
|
数据采集 数据可视化 数据处理
Pandas高级数据处理:数据仪表板制作
《Pandas高级数据处理:数据仪表板制作》涵盖数据清洗、聚合、时间序列处理等技巧,解决常见错误如KeyError和内存溢出。通过多源数据整合、动态数据透视及可视化准备,结合性能优化与最佳实践,助你构建响应快速、数据精准的商业级数据仪表板。适合希望提升数据分析能力的开发者。
293 31
|
10月前
|
缓存 数据可视化 BI
Pandas高级数据处理:数据仪表板制作
在数据分析中,面对庞大、多维度的数据集(如销售记录、用户行为日志),直接查看原始数据难以快速抓住重点。传统展示方式(如Excel表格)缺乏交互性和动态性,影响决策效率。为此,我们利用Python的Pandas库构建数据仪表板,具备数据聚合筛选、可视化图表生成和性能优化功能,帮助业务人员直观分析不同品类商品销量分布、省份销售额排名及日均订单量变化趋势,提升数据洞察力与决策效率。
239 12
|
10月前
|
消息中间件 数据挖掘 数据处理
Pandas高级数据处理:数据流式计算
在大数据时代,Pandas作为Python强大的数据分析库,在处理结构化数据方面表现出色。然而,面对海量数据时,如何实现高效的流式计算成为关键。本文探讨了Pandas在流式计算中的常见问题与挑战,如内存限制、性能瓶颈和数据一致性,并提供了详细的解决方案,包括使用`chunksize`分批读取、向量化操作及`dask`库等方法,帮助读者更好地应对大规模数据处理需求。
231 17
|
10月前
|
数据采集 存储 数据可视化
Pandas高级数据处理:数据报告生成
Pandas 是数据分析领域不可或缺的工具,支持多种文件格式的数据读取与写入、数据清洗、筛选与过滤。本文从基础到高级,介绍如何使用 Pandas 进行数据处理,并解决常见问题和报错,如数据类型不一致、时间格式解析错误、内存不足等。最后,通过数据汇总、可视化和报告导出,生成专业的数据报告,帮助你在实际工作中更加高效地处理数据。
300 8
|
10月前
|
数据采集 并行计算 数据可视化
Pandas高级数据处理:数据报告生成实战指南
数据报告生成面临数据质量、计算性能、呈现形式和自动化等核心挑战。常见问题包括缺失值导致统计失真、内存溢出及可视化困难。解决方案涵盖数据清洗、分块处理、安全绘图模板等。通过模块化设计、异常处理机制和性能优化策略,如使用`category`类型、并行计算等,可大幅提升效率。最佳实践建议建立数据质量检查清单、版本控制和自动化测试框架,确保系统具备自适应能力,提升报告生成效率300%以上。
277 12
|
2月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
279 0
|
4月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
407 0
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
337 1

热门文章

最新文章