Python编程:pandas入门

简介: Python编程:pandas入门

总算找到时间学习了下pandas,先学习一部分,后面继续补充


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 创建序列, 让pandas创建默认整数索引
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
"""
0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64
"""
# 数据读取
# csv文件读取
# 默认第一行列名,数据从第二行起
# (数据从第一行起header=None)
data = pd.read_csv("data.csv")
print(data)
"""
   id name  age  score
0   1  tom   12     98
1   2  tom   12     98
2   3  tom   12     98
3   4  tom   12     98
4   5  tom   12     98
5   6  tom   12     98
6   7  tom   12     98
7   8  tom   12     98
8   9  tom   12     98
9  10  tom   12     98
"""
# 显示前面几行数据(默认前5行)
print(data.head())
"""
   id name  age  score
0   1  tom   12     98
1   2  tom   12     98
2   3  tom   12     98
3   4  tom   12     98
4   5  tom   12     98
"""
# 读取尾部数据
print(data.tail())
"""
 id name  age  score
5   6  tom   12     98
6   7  tom   12     98
7   8  tom   12     98
8   9  tom   12     98
9  10  tom   12     98
"""
# 显示列名
print(data.columns)
# Index(['id', 'name', 'age', 'score'], dtype='object')
# 显示行号
print(data.index)
# RangeIndex(start=0, stop=10, step=1)
# 显示大小
print(data.shape)
# (10, 4)
# 索引和计算
# 列名默认为字符串(Object)。行的index默认为整数
# 提取行
print(data.loc[3:6])
"""
   id name  age  score
3   4  tom   12     98
4   5  tom   12     98
5   6  tom   12     98
6   7  tom   12     98
"""
# 使用list提取行
print(data[3:6])
"""
   id name  age  score
3   4  tom   12     98
4   5  tom   12     98
5   6  tom   12     98
"""
# 提取列
columns = ["name", "age"]
print(data[columns])
"""
   name  age
0  tom   12
1  tom   12
2  tom   12
3  tom   12
4  tom   12
5  tom   12
6  tom   12
7  tom   12
8  tom   12
9  tom   12
"""
# 列名转为list
print(data.columns.tolist())
# ['id', 'name', 'age', 'score']
print(data.columns.values)
# ['id' 'name' 'age' 'score']
print(data.columns.values.dtype)
# object
# 切片
print(data.loc[3:6][["name", "age"]])
"""
  name  age
3  tom   12
4  tom   12
5  tom   12
6  tom   12
"""
print(data["name"])
"""
0    tom
1    tom
2    tom
3    tom
4    tom
5    tom
6    tom
7    tom
8    tom
9    tom
Name: name, dtype: object
"""
# 取极值
print(data["id"].max())
# 10
# 运算
num = data.shape[0]
age_average = data["id"]/num
print(age_average.head())
"""
0    0.1
1    0.2
2    0.3
3    0.4
4    0.5
Name: id, dtype: float64
"""
# 排序
data.sort_values("id", inplace=False, ascending=False)
print(data.head())
相关文章
|
2月前
|
SQL 关系型数据库 数据库
Python SQLAlchemy模块:从入门到实战的数据库操作指南
免费提供Python+PyCharm编程环境,结合SQLAlchemy ORM框架详解数据库开发。涵盖连接配置、模型定义、CRUD操作、事务控制及Alembic迁移工具,以电商订单系统为例,深入讲解高并发场景下的性能优化与最佳实践,助你高效构建数据驱动应用。
385 7
|
2月前
|
Java 数据处理 索引
(Pandas)Python做数据处理必选框架之一!(二):附带案例分析;刨析DataFrame结构和其属性;学会访问具体元素;判断元素是否存在;元素求和、求标准值、方差、去重、删除、排序...
DataFrame结构 每一列都属于Series类型,不同列之间数据类型可以不一样,但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列,该列记录了每一行的索引 在DataFrame中,若列之间的元素个数不匹配,且使用Series填充时,在DataFrame里空值会显示为NaN;当列之间元素个数不匹配,并且不使用Series填充,会报错。在指定了index 属性显示情况下,会按照index的位置进行排序,默认是 [0,1,2,3,...] 从0索引开始正序排序行。
285 0
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
458 0
|
2月前
|
Python
Python编程:运算符详解
本文全面详解Python各类运算符,涵盖算术、比较、逻辑、赋值、位、身份、成员运算符及优先级规则,结合实例代码与运行结果,助你深入掌握Python运算符的使用方法与应用场景。
219 3
|
2月前
|
数据处理 Python
Python编程:类型转换与输入输出
本教程介绍Python中输入输出与类型转换的基础知识,涵盖input()和print()的使用,int()、float()等类型转换方法,并通过综合示例演示数据处理、错误处理及格式化输出,助你掌握核心编程技能。
483 3
|
2月前
|
并行计算 安全 计算机视觉
Python多进程编程:用multiprocessing突破GIL限制
Python中GIL限制多线程性能,尤其在CPU密集型任务中。`multiprocessing`模块通过创建独立进程,绕过GIL,实现真正的并行计算。它支持进程池、队列、管道、共享内存和同步机制,适用于科学计算、图像处理等场景。相比多线程,多进程更适合利用多核优势,虽有较高内存开销,但能显著提升性能。合理使用进程池与通信机制,可最大化效率。
300 3
|
2月前
|
存储 Java 调度
Python定时任务实战:APScheduler从入门到精通
APScheduler是Python强大的定时任务框架,通过触发器、执行器、任务存储和调度器四大组件,灵活实现各类周期性任务。支持内存、数据库、Redis等持久化存储,适用于Web集成、数据抓取、邮件发送等场景,解决传统sleep循环的诸多缺陷,助力构建稳定可靠的自动化系统。(238字)
579 1
|
2月前
|
Java 调度 数据库
Python threading模块:多线程编程的实战指南
本文深入讲解Python多线程编程,涵盖threading模块的核心用法:线程创建、生命周期、同步机制(锁、信号量、条件变量)、线程通信(队列)、守护线程与线程池应用。结合实战案例,如多线程下载器,帮助开发者提升程序并发性能,适用于I/O密集型任务处理。
312 0
|
4月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
413 0
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
340 1

推荐镜像

更多