Python学习教程:从Excel到Python最常用的32个Pandas函数(一)

简介: Python学习教程:从Excel到Python最常用的32个Pandas函数(一)

本次的Python学习教程涉及pandas最常用的36个函数,通过这些函数介绍如何完成数据生成和导入、数据清洗、预处理,以及最常见的数据分类,数据筛选,分类汇总,透视等最常见的操作。

生成数据表

常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。Excel中的“文件”菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。

screenshot

Python支持从多种类型的数据导入。在开始使用Python进行数据
导入前需要先导入pandas库,为了方便起见,我们也同时导入numpy
库.

import numpy as np
import pandas as pd
导入外部数据

df=pd.DataFrame(pd.read_csv('name.csv',header=1))
df=pd.DataFrame(pd.read_Excel('name.xlsx'))c
里面有很多可选参数设置,例如列名称、索引列、数据格式等

直接写入数据

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
"date":pd.date_range('20130102', periods=6),
"city":['Beijing ', 'SH', ' guangzhou ', 'Shen
zhen', 'shanghai', 'BEIJING '],
"age":[23,44,54,32,34,32],
"category":['100-A','100-B','110-A','110-C','2
10-A','130-F'],
"price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =['id','date','city','category','age',
'price'])
screenshot

数据表检查

数据表检查的目的是了解数据表的整体情况,获得数据表的关键信息、数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有
空值和重复项和具体的数据内容,为后面的清洗和预处理做好准备。

1.数据维度(行列)

Excel中可以通过CTRL+向下的光标键,和CTRL+向右的光标键
来查看行号和列号。Python中使用shape函数来查看数据表的维度,也就是行数和列数。

df.shape
2.数据表信息

使用info函数查看数据表的整体信息,包括数据维度、列名称、数据格式和所占空间等信息。

数据表信息

df.info()


RangeIndex: 6 entries, 0 to 5
Data columns (total 6 columns):
id 6 non-null int64
date 6 non-null datetime64[ns]
city 6 non-null object
category 6 non-null object
age 6 non-null int64
price 4 non-null float64
dtypes: datetime64ns, float64(1), int64(2), object(2)
memory usage: 368.0+ bytes
3.查看数据格式

Excel中通过选中单元格并查看开始菜单中的数值类型来判断数
据的格式。Python中使用dtypes函数来返回数据格式。

screenshot

Dtypes是一个查看数据格式的函数,可以一次性查看数据表中所
有数据的格式,也可以指定一列来单独查看

查看数据表各列格式

df.dtypes
id int64
date datetime64[ns]
city object
category object
age int64
price float64
dtype: object

查看单列格式

df['B'].dtype
dtype('int64')
4.查看空值

Excel中查看空值的方法是使用“定位条件”在“开始”目录下的“查找和选择”目录.

screenshot

Isnull是Python中检验空值的函数

检查数据空值

df.isnull()
screenshot

检查特定列空值

df['price'].isnull()
screenshot

5.查看唯一值

Excel中查看唯一值的方法是使用“条件格式”对唯一值进行颜色
标记。

screenshot

Python中使用unique函数查看唯一值。

查看city列中的唯一值

df['city'].unique()
array(['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', '
BEIJING '], dtype=object)
6.查看数据表数值

Python中的Values函数用来查看数据表中的数值

查看数据表的值

df.values
screenshot

7.查看列名称

Colums函数用来单独查看数据表中的列名称。

查看列名称

df.columns
Index(['id', 'date', 'city', 'category', 'age', 'price'], dtype='
object')
8.查看前10行数据

Head函数用来查看数据表中的前N行数据

查看前3行数据

df.head(3)
9.查看后10行数据

Tail行数与head函数相反,用来查看数据表中后N行的数据

查看最后3行

df.tail(3)

数据表清洗

本次的Python学习教程介绍对数据表中的问题进行清洗,包括对空值、大小写问题、数据格式和重复值的处理。

1.处理空值(删除或填充)

Excel中可以通过“查找和替换”功能对空值进行处理

screenshot

Python中处理空值的方法比较灵活,可以使用 Dropna函数用来删除数据表中包含空值的数据,也可以使用fillna函数对空值进行填充。

删除数据表中含有空值的行

df.dropna(how='any')
screenshot

也可以使用数字对空值进行填充

使用数字0填充数据表中空值

df.fillna(value=0)
使用price列的均值来填充NA字段,同样使用fillna函数,在要填充的数值中使用mean函数先计算price列当前的均值,然后使用这个均值对NA进行填充。

使用price均值对NA进行填充

df['price'].fillna(df['price'].mean())
Out[8]:
0 1200.0
1 3299.5
2 2133.0
3 5433.0
4 3299.5
5 4432.0
Name: price, dtype: float64
screenshot

2.清理空格

字符中的空格也是数据清洗中一个常见的问题

清除city字段中的字符空格

df['city']=df['city'].map(str.strip)
3.大小写转换

在英文字段中,字母的大小写不统一也是一个常见的问题。
Excel中有UPPER,LOWER等函数,Python中也有同名函数用来解决
大小写的问题。

city列大小写转换

df['city']=df['city'].str.lower()
screenshot

4.更改数据格式

Excel中通过“设置单元格格式”功能可以修改数据格式。

screenshot

Python中通过astype函数用来修改数据格式。

更改数据格式

df['price'].astype('int')
0 1200
1 3299
2 2133
3 5433
4 3299
5 4432
Name: price, dtype: int32
5.更改列名称

Rename是更改列名称的函数,我们将来数据表中的category列更改为category-size。

更改列名称

df.rename(columns={'category': 'category-size'})
screenshot

6.删除重复值

Excel的数据目录下有“删除重复项”的功能

screenshot

Python中使用drop_duplicates函数删除重复值

df['city']
0 beijing
1 sh
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, dtype: object
city列中beijing存在重复,分别在第一位和最后一位
drop_duplicates()函数删除重复值

删除后出现的重复值

df['city'].drop_duplicates()
0 beijing
1 sh
2 guangzhou
3 shenzhen
4 shanghai
Name: city, dtype: object
设置keep='last‘’参数后,与之前删除重复值的结果相反,第一位
出现的beijing被删除

删除先出现的重复值

df['city'].drop_duplicates(keep='last')
1 sh
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, dtype: objec
7.数值修改及替换

Excel中使用“查找和替换”功能就可以实现数值的替换

screenshot

Python中使用replace函数实现数据替换

附#数据替换
df['city'].replace('sh', 'shanghai')
0 beijing
1 shanghai
2 guangzhou
3 shenzhen
4 shanghai
5 beijing
Name: city, d
篇幅有限,剩下的函数总结会在下一章Python学习教程中继续为大家更新!不会等太久!

相关文章
|
6月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
392 1
|
6月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
529 1
|
6月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
967 1
|
6月前
|
Java 数据处理 索引
(numpy)Python做数据处理必备框架!(二):ndarray切片的使用与运算;常见的ndarray函数:平方根、正余弦、自然对数、指数、幂等运算;统计函数:方差、均值、极差;比较函数...
ndarray切片 索引从0开始 索引/切片类型 描述/用法 基本索引 通过整数索引直接访问元素。 行/列切片 使用冒号:切片语法选择行或列的子集 连续切片 从起始索引到结束索引按步长切片 使用slice函数 通过slice(start,stop,strp)定义切片规则 布尔索引 通过布尔条件筛选满足条件的元素。支持逻辑运算符 &、|。
331 0
|
6月前
|
索引 Python
Python 列表切片赋值教程:掌握 “移花接木” 式列表修改技巧
本文通过生动的“嫁接”比喻,讲解Python列表切片赋值操作。切片可修改原列表内容,实现头部、尾部或中间元素替换,支持不等长赋值,灵活实现列表结构更新。
270 1
|
9月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
9月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
11月前
|
存储 安全 大数据
网安工程师必看!AiPy解决fscan扫描数据整理难题—多种信息快速分拣+Excel结构化存储方案
作为一名安全测试工程师,分析fscan扫描结果曾是繁琐的手动活:从海量日志中提取开放端口、漏洞信息和主机数据,耗时又易错。但现在,借助AiPy开发的GUI解析工具,只需喝杯奶茶的时间,即可将[PORT]、[SERVICE]、[VULN]、[HOST]等关键信息智能分类,并生成三份清晰的Excel报表。告别手动整理,大幅提升效率!在安全行业,工具党正碾压手动党。掌握AiPy,把时间留给真正的攻防实战!官网链接:https://www.aipyaipy.com,解锁更多用法!
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
2468 10
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
878 4

推荐镜像

更多