牛客网Python篇数据分析习题（四）-阿里云开发者社区

牛客网Python篇数据分析习题（四）

2023-02-14 296

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： .现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）

1.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：

Nowcoder_ID：用户ID

Level：等级

Achievement_value：成就值

Num_of_exercise：刷题量

Graduate_year：毕业年份

Language：常用语言

Continuous_check_in_days：最近连续签到天数

Number_of_submissions：提交代码次数

Last_submission_time：最后一次提交题目日期

运营同学正在做用户调研，为了保证调研的可靠性，想要去掉那些信息不全的用户，即去掉有缺失数据的行，请你帮助他去掉后输出全部数据。

660ae4e9e9d47440a15fae0a3c4f3cba_5a04028310b74932b5f651e9dbd5c571.png

import pandas as pd
nd = pd.read_csv("Nowcoder.csv", sep=",", dtype=object)
pd.set_option("display.width", 300) 
pd.set_option("display.max_rows", None) 
pd.set_option("display.max_columns", None)
nd.dropna(axis=0, inplace=True)
print(nd)

2.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：

Nowcoder_ID：用户ID

Level：等级

Achievement_value：成就值

Num_of_exercise：刷题量

Graduate_year：毕业年份

Language：常用语言

Continuous_check_in_days：最近连续签到天数

Number_of_submissions：提交代码次数

Last_submission_time：最后一次提交题目日期

运营同学拿到了这份用户文件，但是由于系统BUG，出现了部分缺失的值，请你使用当前的最大年份填充缺失的毕业年份（“Graduate_year”），用Python填充缺失的常用语言（“Language”），用成就值的均值（四舍五入保留整数）填充缺失的成就值（“Achievement_value”）。

b7e763b343b1be42e74cf80e96d1ce05_8806d994b2094b649a3531b005543431.png

import pandas as pd
nd = pd.read_csv("Nowcoder.csv", sep=",")
pd.set_option("display.width", 300)
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
nd["Graduate_year"].fillna(nd["Graduate_year"].max(), inplace=True)
nd["Language"].fillna("Python", inplace=True)
nd["Achievement_value"].fillna(int(nd["Achievement_value"].mean()), inplace=True)
print(nd)

3.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：

Nowcoder_ID：用户ID

Level：等级

Achievement_value：成就值

Num_of_exercise：刷题量

Graduate_year：毕业年份

Language：常用语言

Continuous_check_in_days：最近连续签到天数

Number_of_submissions：提交代码次数

Last_submission_time：最后一次提交题目日期

牛牛拿到这份文件的时候一脸懵逼，因为系统错误将很多相同用户的数据输出了多条，导致文件中有很多重复的行，请先检查每一行是否重复，然后输出删除重复行后的全部数据。

7bdc1c8a9e4cb430a582447f84c95b31_8e0dbbd0d86b4c75b7ae1e28dcb53242.png

import pandas as pd
nd=pd.read_csv('Nowcoder.csv')
print(nd.duplicated())
print(nd.drop_duplicated(0))

4.现有一个Nowcoder.csv文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：

Nowcoder_ID：用户ID

Level：等级

Achievement_value：成就值

Num_of_exercise：刷题量

Graduate_year：毕业年份

Language：常用语言

Continuous_check_in_days：最近连续签到天数

Number_of_submissions：提交代码次数

Last_submission_time：最后一次提交题目日期

运营同学发现最后一次提交题目日期这一列有各种各样的日期格式，这对于他分析用户十分不友好，你能够帮他输出用户ID、等级以及统一后的日期吗？（日期格式统一为yyyy-mm-dd）

af472351c93ad19e66f9c1b9dfea6d0d_dc052a65c0fb4099a553c8c4e5f03f15.png

import pandas as pd
nd = pd.read_csv("Nowcoder.csv", sep=",", dtype=object)
nd["Last_submission_time"] = pd.to_datetime(
    nd["Last_submission_time"], format="%Y-%m-%d")
print(nd[["Nowcoder_ID", "Level", "Last_submission_time"]])

5.现有一个Nowcoder.json文件，它记录了牛客网的部分用户数据，包含如下字段（字段与字段之间以逗号间隔）：

Nowcoder_ID：用户ID

Level：等级

Achievement_value：成就值

Graduate_year：毕业年份

Language：常用语言

如果你读入了这个json文件，能将其转换为pandas的DataFrame格式吗？

4b51f75adb089838fd9ad43482d5e8aa_f3f2292983be4e4b87f1def873f49d75.png

import pandas as pd
import json
pd.set_option("display.width", 300)
pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
with open("Nowcoder.json", "r") as f:
    data = json.loads(f.read())
print(pd.DataFrame(data))

6.现有牛客网12月每天练习题目情况的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：

user_id:用户id

question_id：问题编号

result：运行结果

date：练习日期

请你统计2021年12月每天练习题目的数量。

bf75d97a7addabb64443a18c3da16815_1bcc93cf2e3048309bbcc2aa45f67582.png

import pandas as pd
nowcoder = pd.read_csv("nowcoder.csv", parse_dates=True, index_col="date")
nd_num = nowcoder.groupby("date")["question_id"].count()
print(nd_num)

7.现有牛客网12月每天练习题目情况的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：

user_id:用户id

question_id：问题编号

result：运行结果

date：练习日期

现需要查看用户在某天练习后第二天还会再来练习的留存情况，请计算用户练习的平均次日留存率。

d55b3796ac98511d37c979678774253e_03eca3d2a6c44cf99b6ae55c74d5ce25.png

import pandas as pd
from datetime import timedelta
df = pd.read_csv("nowcoder.csv", sep=",")
tit_id = df["user_id"].count()
nd = pd.merge(df, df, on="user_id")
nd["date_x"] = pd.to_datetime(nd.date_x).dt.date
nd["date_y"] = pd.to_datetime(nd.date_y).dt.date
nd["differ"] = nd["date_x"] - nd["date_y"]
sum_id = nd[nd.differ == "1 days"]["differ"].count()
res = round(sum_id / tit_id, 2)
print(res)

8.现有牛客网12月每天练习题目的数据集nowcoder.csv。包含如下字段（字段之间用逗号分隔）：

user_id:用户id

question_id：问题编号

result：运行结果

date：练习日期

请你统计2021年12月答题结果正确和错误的前提下每天的答题次数。

272a216aa4a4f9ad29e866cf36a47c45_179da4a3abb44a7ab7d82db3c7265078.png

import pandas as pd
df = pd.read_csv("nowcoder.csv")
df.rename(columns={"date": "year-month-day"}, inplace=True)
nd = df.groupby(["result", "year-month-day"])["question_id"].count()
print(nd)

牛客网Python篇数据分析习题（四）

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

牛客网Python篇数据分析习题（四）

热门文章

最新文章

相关课程

相关电子书

推荐镜像