pandas玩转excel_pandas操作excel_pandas读写excel

简介: pandas玩转excel_pandas操作excel_pandas读写excel

pandas是基于Numpy创建的Python包,内置了大量标准函数,能够高效地解决数据分析数据处理和分析任务,pandas支持多种文件的操作,比如Excel,csv,json,txt 文件等,读取文件之后,就可以对数据进行各种清洗、分析操作了。

首先,了解下pandas中两个主要的数据结构,一个是Series,另一个是DataFrame。

Series一种增强的一维数组,类似于列表,由索引(index)和值(values)组成。

DataFrame是一个类似表格的二维数据结构,索引包括列索引和行索引,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame的每一行和每一列都是一个Series。

pandas读取excel

pandas读取文件之后,将内容存储为DataFrame,然后就可以调用内置的各种函数进行分析处理。

pandas对xlrd等模块进行了封装,可以很方便的处理excel文件,支持xls和xlsx等格式,需要提前安装模块pip install xlrd

pandas.read_excel(filename, sep, header,encoding)

「参数解释」

  • filename:文件路径,可以设置为绝对路径或相对路径
  • sep:分隔符,常用的有逗号 , 分隔、\t 分隔,默认逗号分隔,read_table默认是'\t'(也就是tab)切割数据集的
  • header:指定表头,即列名,默认第一行,header = None, 没有表头,全部为数据内容
  • encoding:文件编码方式,不设置此选项, Pandas 默认使用 UTF-8 来解码。
  • index_col ,指定索引对应的列为数据框的行标签,默认 Pandas 会从 0、1、2、3 做自然排序分配给各条记录。
  • 通过names=['a','b','c']可以自己设置列标题

img

import pandas as pd
result = pd.read_excel('test1.xlsx')
print(result)

img

# 指定第一列为行索引
result = pd.read_excel('test1.xlsx',index_col=0)
print(result)

img编辑

#  默认读取第一个sheet,读取第2个sheet如下
result = pd.read_excel('test1.xlsx',sheet_name=1)
print(result)

img

result = pd.read_excel('test1.xlsx',names=['序号','姓名','年龄','城市'])
print(result)

img

# 查看指定前几行,默认前5行,指定行数写小括号里
print(result.head())

# 查看数据的(行数、列数)
print(result.shape)
#(4, 4)

# 查看列索引列表
print(result.columns.values)
# ['No' 'Name' 'Age' 'Address']

# 查看行索引列表
print(result.index.values)
# [0 1 2 3]

新建excel并写入数据

import pandas as pd
result = pd.DataFrame({'序号':[1,2,3],'姓名':['张三','李四','王五']})
result.to_excel('新建.xlsx')

pandas增删改查:

读取下面的表格数据,进行学习:

import pandas as pd
df = pd.read_excel('test1.xlsx',index_col='No')
print(df)

img

增删改查的常用方法,已整理成思维导图,便于大家查阅学习:

img编辑

「两种查询方法的介绍」

「loc」 根据行,列的标签值查询

「iloc」 通过行号索引行数据,行号从0开始,逐次加1。

「注意」 当使用显式索引(即data['a':'c'])作切片时,结果「包含」最后一个索引;而当使用隐式索引(即 data[0:2]) 作切片时,结果「不包含」最后一个索引。

loc属性,表示取值和切片都是显式索引

iloc属性,表示取值和切片都是隐式索引

Pandas 读取 csv文件的语法格式和读取excel文件是相似的,大家可以对照读取excel的方法学习。

使用pandas表格数据常用的清洗方法:

df.drop(['Name'], axis=1) # 删除列
df1.drop(labels=[1,3],axis=0)   #删除行
df.drop([0, 1]) # 删除行
df.drop_duplicates() # 删除重复值
df.fillna('missing')# 使用字符串填补
df.replace('old', 'new') # old替换成new
df.rename(columns={'old_name': 'new_name'}) # 选择性更改列名
df.columns = ['a','b','c'] # 重命名列名
df.dropna(axis = 0) # 删除有缺失的行
df.dropna(axis = 1) # 删除有缺失的列

当然了,pandas除了读取csv和excel文件之外,读写数据的方法还有很多种,感兴趣的话,大家可以根据官方文档学习。

https://pandas.pydata.org/pandas-docs/stable/

img编辑

目录
相关文章
|
1月前
|
数据可视化 数据处理 Python
使用Pandas实现Excel中的数据透视表功能
本文介绍了如何使用Python的Pandas库实现Excel中的数据透视表功能,包括环境准备、创建模拟销售数据、代码实现及输出等步骤。通过具体示例展示了按地区和销售员汇总销售额的不同方法,如求和、平均值、最大值等,帮助读者掌握Pandas在数据处理上的强大能力。
67 12
|
3月前
|
Python
python读写操作excel日志
主要是读写操作,创建表格
74 2
|
4月前
|
Python
pandas 生成 Excel 时的 sheet 问题
pandas 生成 Excel 时的 sheet 问题
45 1
|
4月前
|
数据采集 索引 Python
pandas处理excel
pandas处理excel
|
3月前
|
索引 Python
Excel学习笔记(一):python读写excel,并完成计算平均成绩、成绩等级划分、每个同学分数大于70的次数、找最优成绩
这篇文章是关于如何使用Python读取Excel文件中的学生成绩数据,并进行计算平均成绩、成绩等级划分、统计分数大于70的次数以及找出最优成绩等操作的教程。
120 0
|
4月前
|
Python
Python:Pandas实现批量删除Excel中的sheet
Python:Pandas实现批量删除Excel中的sheet
202 0
对excel读写的三个模块,xlsxwriter最牛,xlwt , xlrd,openpyxl
对excel读写的三个模块,xlsxwriter最牛,xlwt , xlrd,openpyxl
|
5月前
|
SQL JSON 关系型数据库
n种方式教你用python读写excel等数据文件
n种方式教你用python读写excel等数据文件
83 1
|
5月前
|
easyexcel Java 关系型数据库
阿里巴巴-EasyExcel 基于Java的简单、省内存的读写Excel
该文章主要介绍了在Java应用中如何使用EasyExcel技术完成对Excel文件的导入和导出操作,包括环境搭建、基本概念、快速入门、进阶操作和综合应用等内容,并提供了相关代码示例和注意事项。
 阿里巴巴-EasyExcel 基于Java的简单、省内存的读写Excel
|
5月前
|
算法 数据挖掘 Java
日常工作中,Python+Pandas是否能代替Excel+VBA?
日常工作中,Python+Pandas是否能代替Excel+VBA?
57 0

热门文章

最新文章