Python训练营笔记 从0完成一个数据分析实战 Day10

简介: 学习笔记 - 天池龙珠计划 - Python 训练营 Task4 Day10(数据分析基本介绍、数据准备及读取、数据探索)

天池龙珠计划 Python训练营

所记录的知识点

  1. pd.read_csv
  2. pd.merge
  3. pd.DataFrame
  4. shape info describe

1、pd.read_csv

pd.read_csv读取csv文件中的数据

CSV文件内容

a_0|b_0|c_0|d_0
a_1|b_1|c_1|d_1
a_2|b_2|c_2|d_2
a_3|b_3|c_3|d_3
import pandas as pd
pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
# 分隔符 |
# 因为csv文件中,未添加无表头。所以,names=["a","b","c","d"]是表头
a_col    b_col    c_col    d_col
0    a_0    b_0    c_0    d_0
1    a_1    b_1    c_1    d_1
2    a_2    b_2    c_2    d_2
3    a_3    b_3    c_3    d_3

2、pd.merge

pd.merge 合并数据
import pandas as pd
csv_untitled = pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
# 分隔符 |
# 因为csv文件中,未添加无表头。所以,names=["a","b","c","d"]是表头
csv_untitled1 = pd.read_csv("untitled1.txt",sep="|",names=["a_col","e_col"])

print("csv_untitled\n",csv_untitled,"\n")

print("csv_untitled1\n",csv_untitled1,"\n")

# 通过a_col来合并
csv_merge = pd.merge(csv_untitled,csv_untitled1)
print("csv_merge\n",csv_merge,"\n")
csv_untitled
   a_col b_col c_col d_col
0   a_0   b_0   c_0   d_0
1   a_1   b_1   c_1   d_1
2   a_2   b_2   c_2   d_2
3   a_3   b_3   c_3   d_3 

csv_untitled1
   a_col e_col
0   a_0   e_0
1   a_1   e_1
2   a_2   e_2
3   a_3   e_3 

csv_merge
   a_col b_col c_col d_col e_col
0   a_0   b_0   c_0   d_0   e_0
1   a_1   b_1   c_1   d_1   e_1
2   a_2   b_2   c_2   d_2   e_2
3   a_3   b_3   c_3   d_3   e_3 

3、pd.merge

pd.DataFrame 提取指定名称的列
import pandas as pd
csv_untitled = pd.read_csv("untitled.txt",sep="|",names=["a_col","b_col","c_col","d_col"])
csv_untitled1 = pd.read_csv("untitled1.txt",sep="|",names=["a_col","e_col"])

# 通过a_col来合并
csv_merge = pd.merge(csv_untitled,csv_untitled1)
print("csv_merge\n",csv_merge,"\n")

# 提取指定名称的列
csv_col_a_b_e = pd.DataFrame(csv_merge,columns=["a_col","b_col","e_col"])
print("csv_col_a_b_e\n",csv_col_a_b_e)
csv_merge
   a_col b_col c_col d_col e_col
0   a_0   b_0   c_0   d_0   e_0
1   a_1   b_1   c_1   d_1   e_1
2   a_2   b_2   c_2   d_2   e_2
3   a_3   b_3   c_3   d_3   e_3 

csv_col_a_b_e
   a_col b_col e_col
0   a_0   b_0   e_0
1   a_1   b_1   e_1
2   a_2   b_2   e_2
3   a_3   b_3   e_3

4、shape info describe

shape 数据规模
info 整体数据信息
describe 数据分布情况
print("csv_col_a_b_e\n",csv_col_a_b_e,"\n")

# 数据规模
print("csv_col_a_b_e.shape\n",csv_col_a_b_e.shape,"\n")

# 整体数据信息
print("csv_col_a_b_e.info()")
csv_col_a_b_e.info()

# 数据分布情况
print("\ncsv_col_a_b_e.describe\n",csv_col_a_b_e.describe(),"\n")
csv_col_a_b_e
   a_col b_col e_col
0   a_0   b_0   e_0
1   a_1   b_1   e_1
2   a_2   b_2   e_2
3   a_3   b_3   e_3 

csv_col_a_b_e.shape
 (4, 3) 

csv_col_a_b_e.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a_col   4 non-null      object
 1   b_col   4 non-null      object
 2   e_col   4 non-null      object
dtypes: object(3)
memory usage: 128.0+ bytes

csv_col_a_b_e.describe
        a_col b_col e_col
count      4     4     4
unique     4     4     4
top      a_0   b_2   e_0
freq       1     1     1 


欢迎各位同学一起来交流学习心得!

目录
相关文章
|
1月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
1月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析的入门指南
本文将引导读者了解如何使用Python进行数据分析,从安装必要的库到执行基础的数据操作和可视化。通过本文的学习,你将能够开始自己的数据分析之旅,并掌握如何利用Python来揭示数据背后的故事。
|
5天前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
80 61
Python装饰器实战:打造高效性能计时工具
|
2月前
|
机器学习/深度学习 算法 数据挖掘
数据分析的 10 个最佳 Python 库
数据分析的 10 个最佳 Python 库
136 4
数据分析的 10 个最佳 Python 库
|
1月前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
59 10
|
21天前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
2月前
|
存储 数据可视化 数据挖掘
使用Python进行数据分析和可视化
本文将引导你理解如何使用Python进行数据分析和可视化。我们将从基础的数据结构开始,逐步深入到数据处理和分析的方法,最后通过实际的代码示例来展示如何创建直观的数据可视化。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和技巧。让我们一起探索数据的世界,发现隐藏在数字背后的故事!
107 5
|
2月前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!
|
2月前
|
存储 数据可视化 数据挖掘
Python数据分析项目:抖音短视频达人粉丝增长趋势
Python数据分析项目:抖音短视频达人粉丝增长趋势
|
2月前
|
并行计算 调度 开发者
探索Python中的异步编程:从基础到实战
在Python的世界里,异步编程是一种让程序运行更加高效、响应更快的技术。本文不仅会介绍异步编程的基本概念和原理,还将通过具体代码示例展示如何在Python中实现异步操作。无论你是初学者还是有经验的开发者,都能从中获益,了解如何运用这一技术优化你的项目。