【Python】—— pandas 数据分析-阿里云开发者社区

【Python】—— pandas 数据分析

2024-05-13 76

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python】—— pandas 数据分析

第1关：了解数据集特征

任务描述

本关任务：载入网贷数据集，了解数据概况。

共包含多个子任务：

1.1 读取Training_Master.csv文件，命名为master；

1.2 读取Training_Userupdate.csv文件，命名为user；

1.3 读取Training_LogInfo.csv文件，命名为log；

1.4 分别输出它们的形状；

1.5 输出包含master后7个列名的列表；

1.6 输出user表的前3行。

知识讲解

为了完成本关任务，你需要掌握：

1.pandas模块导入

import pandas as pd

2.pandas模块下的数据文件读取方法

read_csv()
#返回DataFrame类型对象

若数据包含中文，需添加参数encoding='gbk'。

3.了解数据集基本特征的方法。

DataFrame.shape    #DataFrame形状
DataFrame.head(n)  #DataFrame数据的前n行
DataFrame.columns  #DataFrame的列索引

编程要求

根据提示，在右侧编辑器补充代码。

运行代码

# -*- coding: utf-8 -*-
'''
第1关 : 了解数据集特征
'''
# 1.1 读取Training_Master.csv文件，命名为master；
master = pd.read_csv('Training_Master.csv', encoding='gbk')
# 1.2 读取Training_Userupdate.csv文件，命名为user；
user = pd.read_csv('Training_Userupdate.csv', encoding='gbk') 
# 1.3 读取Training_LogInfo.csv文件，命名为log；
log = pd.read_csv('Training_LogInfo.csv', encoding='gbk') 
# 1.4 分别输出它们的形状；
print(master .shape)
print(user .shape)
print(log.shape)
# 1.5 输出包含master后7个列名的列表；
a = [i for i in master.colums[-7:]]
print(a)
# 1.6 输出user表的前3行。
print(user.head(3))

第2关：DataFrame 的 CRUD

任务描述

本关任务：使用DataFrame结构深入了解数据集细节。

包含4个子任务：

2.1 查询master表的列名前缀；

2.2 删除master表的列；

2.3 在master表中增加列；

2.4 修改master表数据。

知识讲解

为了完成本关任务，你需要掌握：

获取DataFrame列名

DataFrame.columns返回DataFrame的列名Index对象

例如：

In [1]: log.columns
Out[1]: Index(['Idx', 'Listinginfo1', 'LogInfo1', 'LogInfo2', 'LogInfo3'], dtype='object')

字符串分割

str.split(分隔符) 返回字符串列表

例如：

In [2]:'SocialNetwork_12'.split('_')
Out[2]: ['SocialNetwork', '12']

删除DataFrame的列

根据索引名称（label）删除指定的行（axis = 0）或列（axis = 1），inplace指定是否删除原数据。

label可以是字符串，也可以是字符串列表。

DataFrame.drop(label,axis,inplace)

Series的广播操作

像ndarray结构一样，Series结构也支持广播操作。

根据行列索引名称查询DataFrame

loc方法的参数很灵活，名称、名称列表、条件表达式均可，需根据实际情况灵活使用。条件表达式本质上仍是索引名列表。

DataFrame.loc[行索引名或条件表达式,列索引名或条件表达式]

编程要求

根据提示，补充代码。

运行代码

# -*- coding: utf-8 -*-
'''
第2关：DataFrame 的 CRUD
'''
import pandas as pd
master = pd.read_csv('Training_Master.csv', encoding='gbk')
user = pd.read_csv('Training_Userupdate.csv', encoding='gbk') 
log = pd.read_csv('Training_LogInfo.csv', encoding='gbk') 
# 2.1 查询master表的列名前缀列表，并按字母升序输出该列表；
# 例如：SocialNetwork_12列的列名前缀为：SocialNetwork
lc = list(master.colums)
lx = list()
for i in lc:
  x = i.split("_")
    if x[0] not in lx:
      lx.append(x[0])
lx.sort()
print(lx)
# 2.2 删除master表的列名前缀为：SocialNetwork的列；
# 输出：共**列被删除
count = 0
iy = list()
for ix in lc:
  x = ix.split("_")
  if x[0] = 'SocialNetwork':
    iy.append(ix)
    count=count+1
print('共{0}列被删除。'.format(count))
ma = master.drop(labels = iy,axis = 1)
# 2.3 在master表中最右侧增加一列Result,
# 记录 UserInfo_1和UserInfo_3的和，
# 并输出这三列的前5行
ma['Result'] = ma['UserInfo_1'] + ma['UserInfo_3']
mb = ma[['UserInfo_1','UserInfo_3','Result']].head(5)
print(mb)
# 2.4 将UserInfo_2列中所有的“深圳”替换为“中国深圳”，
# 并计算“中国深圳”的用户数
mc = master['UserInfo_2']
mc = mc.replace('深圳','中国深圳')
cou = 0
for i in mc:
  if i == '':
    cou = ou + 1
print(cou)

第3关：利用 pandas 实现数据统计分析

任务描述

本关任务：利用pandas进行数据统计分析。

本关共包含4个子任务：

3.1 用户来源地分析；

3.2 未登录用户分析；

3.3 用户活跃度分析；

3.4 用户活跃期分析。

具体任务内容详见代码注释。

知识讲解

为了完成本关任务，你需要掌握：

数据频数统计

Series.value_counts()
#返回Series类型数据,表达Series每个取值的出现次数。

简单数据统计

DataFrame.agg(np中的简单统计方法)
#按列统计，直接返回统计结果

时间字符串转换为时间类型数据

pd.to_datetime(Series或DataFrame)

取时间数据的星期名称

Timestamp.day_name()

数据分组

DataFrame.groupby(列索引)
#返回DataFrameGroupBy对象，
DataFrameGroupBy.nunique()
#分组对象的nunique方法直接返回每个分组中不重复值的个数。

编程要求

根据提示，补充代码。

运行代码

# -*- coding: utf-8 -*-
'''
 第3关：利用 pandas 实现数据统计分析
'''
import pandas as pd
import numpy as np
master = pd.read_csv('Training_Master.csv', encoding='gbk')
user = pd.read_csv('Training_Userupdate.csv', encoding='gbk') 
log = pd.read_csv('Training_LogInfo.csv', encoding='gbk') 
# 3.1 用户来源地分析；
#     在master表中用value_counts方法实现按用户所在地(UserInfo_2)统计用户数
#     并按照如下格式输出统计结果的前5项(其中为英文字符号)
#     城市:(用户数)
vacount=master['UserInfo_2'].value_counts()
va=vacount.head(5)
vb=va.index
for i in range(5):
  print('{}:({})'.format(vb[i],va[i]))
# 3.2 未登录用户分析；
#     结合master表和log表的内容，
#     求取从未登录的用户的数量，直接输出
ms=set(master['Idx'])
ls=set(log['Idx']
nologuser=ms-ls
print(len(nologuser))
# 3.3 用户活跃度分析；
#     求取信息更新（user表）次数最多的用户的最早登录时间（LogInfo3）
#     输出用户Idx，更新次数，最早登录时间
counts=user['Idx'].value_counts().head(1)
ci=counts.index
logtime=log[log['Idx']==ci[0]]['LogInfo3'].agg(np.min)
print(ci[0],counts.values[0],logtime)
# 3.4 用户活跃期分析。
#     给user表增加新列“weekday”，填入更新日期（UserupdateInfo2）相应的星期名称
#     用groupby和nunique方式实现
#     按星期名称统计用户更新人数（注意，是人数），并输出
user['weekday']=[i.day_name() for i in pd.to_datetime(user['UserupdateInfo2'])]
weekgroup=user[['Idx','weekday']].groupby('weekday')
weekcounts=weekgroup.nunique()['Idx']
print(weekcounts)

【Python】—— pandas 数据分析

相关知识了解

1. 数据清理

2. 探索性数据分析（EDA）

3. 数据过滤和选择

4. 数据分组和聚合

5. 数据合并和连接

6. 时间序列分析

7. 统计分析

第1关：了解数据集特征

第2关：DataFrame 的 CRUD

第3关：利用 pandas 实现数据统计分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Python】—— pandas 数据分析

相关知识了解

1. 数据清理

2. 探索性数据分析（EDA）

3. 数据过滤和选择

4. 数据分组和聚合

5. 数据合并和连接

6. 时间序列分析

7. 统计分析

第1关：了解数据集特征

第2关：DataFrame 的 CRUD

第3关：利用 pandas 实现数据统计分析

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像