Python数据分析——白葡萄酒实训

简介: Python数据分析——白葡萄酒实训

一:数据收集

变量名 含义
fixed acidity 固定酸度
volatile acidity 挥发性酸度
citric acidity 柠檬酸
residual sugar 剩余糖
chlorides 氧化物
free sulfur dioxide 游离的二氧化碳
total sulfur dioxide 总二氧化硫
density 密度
PH
sulphates 酸碱盐
alcohol 酒精
quality 品质

完整数据

实训之前我们需要先下载数据,我这里是下载完之后文件名是:white_wine.csv


二:读取数据

1:显示前5行数据

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
for i in range(5):
    print(data[i])
f.close()

c703aebaaf3f4bb4a9f07f9a46d8b12f.png


三:数据处理

1:查看白葡萄酒总共分为几种品质等级

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
quality_list = []
for row in data[1:]:
    quality_list.append(int(row[ -1]))
quality_count = set(quality_list)
print("白葡萄酒共有%s种等级, 分别为:%r"
      %(len(quality_count), quality_count))


白葡萄酒共有7种等级, 分别为:{3, 4, 5, 6, 7, 8, 9}


2:统计等级及其数量

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
for key in content_dict:
    print('等级为%d, 数量为%d' %(key, len(content_dict[key])))
f.close()
等级为6, 数量为1539
等级为5, 数量为1020
等级为7, 数量为616
等级为8, 数量为123
等级为4, 数量为115
等级为3, 数量为14
等级为9, 数量为4


条形图展示

import csv
import numpy as np
import matplotlib.pyplot as plt
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
x = []
y = []
for key in content_dict:
    x.append(key)
    y.append(len(content_dict[key]))
plt.bar(x, y)
plt.show()

4e7e74c8175f40e1942bf0e564e82bd3.png


3:计算每个数据集中fixed acidity的均值

import csv
f = open("white_wine.csv",'r')
reader = csv.reader(f)
data = []
for row in reader:
    data.append(row)
content_dict = {}
for row in data[1:]:
    quality = int(row[-1])
    if quality not in content_dict.keys():
        content_dict[quality] = [row]
    else:
        content_dict[quality].append(row)
mean_list = []
for key,value in content_dict.items():
    sum = 0
    for row in value:
        sum += float(row[0])
    mean_list.append((key, sum / len(value)))
for item in mean_list:
    print(item[0],",", item[1])


6 : 6.812085769980511
5 : 6.907843137254891
7 : 6.755844155844158
8 : 6.708130081300811
4 : 7.052173913043476
3 : 7.535714285714286
9 : 7.5


目录
相关文章
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
58 2
|
2月前
|
机器学习/深度学习 数据可视化 算法
使用Python进行数据分析:从零开始的指南
【10月更文挑战第9天】使用Python进行数据分析:从零开始的指南
46 1
|
28天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
62 0
|
13天前
|
机器学习/深度学习 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第42天】本文将介绍如何使用Python进行数据分析和可视化。我们将从数据导入、清洗、探索性分析、建模预测,以及结果的可视化展示等方面展开讲解。通过这篇文章,你将了解到Python在数据处理和分析中的强大功能,以及如何利用这些工具来提升你的工作效率。
|
23天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
39 2
|
29天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
36 2
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
34 2
|
12天前
|
数据采集 数据可视化 数据挖掘
掌握Python数据分析,解锁数据驱动的决策能力
掌握Python数据分析,解锁数据驱动的决策能力
|
20天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
20天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南