【Python】数据分析:pandas基础

简介: 【Python】数据分析:pandas基础

Dataframe是一个二维的,因此既有行索引,又有列索引

import pandas as pd
import numpy as np
pd.Dataframe(np.arange(12).reshape(3,4))

}L~80PGY5XW@LQ}5UQ8@_{X.png

image.png


疑问:除了0,1,2这种索引,能不能传其他索引进行指定?

可以的,通过index指定行索引,通过columns指定列索引

pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('efgh'))

R13YUJ1DQ_2VZ23JAMNFI{4.png

image.png

DataFrame和Series的关系?

Dataframe可以看做是 Series容器,存放series数据

如何将字典格式的数据传入DataFrame?

1 - 一个字典,多个数组

pd.DataFrame({"name":['shanjialan','shanjiale'],"age":[19,21]})

AFEU{EW0ZA~2FVZ~R[BZQCD.png

image.png


2 - 多个字典,一个数组

pd.DataFrame([{"name":'sjl',"age":21},{"name":'syh',"age":23}])

[3{_C9]D$~S6`DZGHZ2OQ%6.png

image.png


配合数据库使用pandas

import pandas as pd
from pymongo import MongoClient
client = MongoClient()
collection = client['douban']['tv1']
data = list(collection.find())
pf = pd.DataFrame(data)
print(pf)

2-DataFrame的基础属性

df.shape # 显示行数列数

df.dtypes # 显示列数据类型

df.ndim # 数据维度

df.index # 行索引

df.columns # 列索引

df.values # 对象值,二维ndarray数组

3-DataFrame整体情况查询

df.head(n) # 显示前n行的数据

df.tail(n) # 显示倒数n行的数据

df.info() # 显示相关信息概述:行数、列数、列非空个数、列类型、内容等

df.describe() # 快速综合统计结果:计数、均值、标准差、最大值、最小值、四分位数等

import pandas as pd
import numpy as np
df = pd.read_csv('./doubantop250.csv',sep=',', header=None,encoding='unicode_escape')
# 取前3行
print(df.head(3))
# 取后3行
print(df.tail(3))
# dataframe的相关信息
print(df.info())
# 描述
print(df.describe())
# 排序
df1 = df.sort_values(by=2)
print(df1)
# 取行和取列同时操作
print(df[:6][2])
# loc通过标签进行取行或者取列
# loc[index_name,col_name]
# 通过x,y的索引进行取数据的操作
# iloc[index_x,index_y]
df2 = pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("DEFG"))
print(df2)
print(df2.loc["a","D"])
print(df2.iloc[0,1])
# 取列数据
print(df2.loc["a"])
print(df2.loc["a",:])
print(df2.iloc[2,3])
# 多行多列
print(df2.loc[["a","b"],["D","G"]])
print(df2.iloc[:2,[1,2]])
目录
相关文章
|
2月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
126 71
|
2月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
【10月更文挑战第42天】本文是一篇技术性文章,旨在为初学者提供一份关于如何使用Python进行数据分析的入门指南。我们将从安装必要的工具开始,然后逐步介绍如何导入数据、处理数据、进行数据可视化以及建立预测模型。本文的目标是帮助读者理解数据分析的基本步骤和方法,并通过实际的代码示例来加深理解。
87 3
|
2月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
143 73
|
1月前
|
存储 数据采集 数据可视化
Pandas数据应用:医疗数据分析
Pandas是Python中强大的数据操作和分析库,广泛应用于医疗数据分析。本文介绍了使用Pandas进行医疗数据分析的常见问题及解决方案,涵盖数据导入、预处理、清洗、转换、可视化等方面。通过解决文件路径错误、编码不匹配、缺失值处理、异常值识别、分类变量编码等问题,结合Matplotlib等工具实现数据可视化,并提供了解决常见报错的方法。掌握这些技巧可以提高医疗数据分析的效率和准确性。
72 22
|
29天前
|
存储 数据挖掘 数据处理
Python Pandas入门:行与列快速上手与优化技巧
Pandas是Python中强大的数据分析库,广泛应用于数据科学和数据分析领域。本文为初学者介绍Pandas的基本操作,包括安装、创建DataFrame、行与列的操作及优化技巧。通过实例讲解如何选择、添加、删除行与列,并提供链式操作、向量化处理、索引优化等高效使用Pandas的建议,帮助用户在实际工作中更便捷地处理数据。
41 2
|
2月前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
81 5
|
3月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
169 4
数据分析的 10 个最佳 Python 库
|
3月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
132 5
|
3月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势