ChatGPT4 Plus只需上传一个文件,自动进行数据分析,数据遇上Ai会碰撞出什么火花?

简介: ChatGPT4 Plus只需上传一个文件,自动进行数据分析,数据遇上Ai会碰撞出什么火花?

ChatGPT全自动分析数据

我提出一个问题

这是一份鸢尾花数据集,请根据这份数据进行统计分析并作图,分析相关性、显著性等指标,绘制热图、散点图、折线图、箱线图,并给出你的看法。(只需要我输入问题和数据txt文件)

生信俱乐部

,赞10

ChatGPT 4.0 Plus 的回答

import pandas as pd
# Load the dataset
iris = pd.read_csv("/mnt/data/iris.txt")
# Display the first few rows of the dataset
iris.head()
RESULT
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
0     1 5.1 3.5 1.4 0.2 setosa       
1    2 4.9 3 1.4 0.2 setosa       
2   3 4.7 3.2 1.3 0.2 setosa       
3    4 4.6 3.1 1.5 0.2 setosa       
4     5 5 3.6 1.4 0.2 setosa

看起来这个数据集的格式有些问题,所有的数据都在一行,而且包含了很多空格,需要对数据进行清洗,以便后续分析。

数据清洗

现在让我们来进行数据清洗:

# Clean the dataset
iris = iris["Sepal.Length Sepal.Width Petal.Length Petal.Width Species"].str.split(expand=True)
iris.columns = ["Index", "Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width", "Species"]
# Drop the "Index" column as it's not necessary
iris = iris.drop(columns=["Index"])
# Convert the numerical columns to float type
for column in ["Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"]:
    iris[column] = iris[column].astype(float)
iris.head()
RESULT
   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa

数据清洗已完成!现在,我们的数据集包括以下五个特征:

  1. "Sepal.Length":花萼长度
  2. "Sepal.Width":花萼宽度
  3. "Petal.Length":花瓣长度
  4. "Petal.Width":花瓣宽度
  5. "Species":鸢尾花种类

统计分析

我们可以开始进行统计分析了。首先,我们可以通过描述性统计来查看各特征的均值、标准差、最小值、25%、50%、75% 分位数和最大值。然后,我们将使用相关性分析和显著性测试来探索这些特征之间的关系。最后,我们将通过可视化这些数据来进一步分析。

# Descriptive statistics for the dataset
desc_stats = iris.describe()
# Include the count of each species for completeness
desc_stats = desc_stats.append(iris["Species"].value_counts().rename("count"))
desc_stats

描述性统计结果如下:

- "Sepal.Length":
平均值为5.84,标准差为0.83,中位数为5.8,范围从4.3到7.9。
- "Sepal.Width":
平均值为3.06,标准差为0.44,中位数为3.0,范围从2.0到4.4。
- "Petal.Length":
平均值为3.76,标准差为1.77,中位数为4.35,范围从1.0到6.9。
- "Petal.Width":
平均值为1.20,标准差为0.76,中位数为1.3,范围从0.1到2.5。

三种鸢尾花种类,每种都有50个样本

相关性分析

接下来,我们将进行相关性分析。

# Correlation analysis
correlation = iris.corr()
correlation
RESULT
              Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
Sepal.Length      1.000000    -0.117570      0.871754     0.817941
Sepal.Width      -0.117570     1.000000     -0.428440    -0.366126
Petal.Length      0.871754    -0.428440      1.000000     0.962865
Petal.Width       0.817941    -0.366126      0.962865     1.000000

相关性分析结果如下:

- "Sepal.Length" 与 "Petal.Length" 和 "Petal.Width" 呈强正相关,说明花萼长度增加时,花瓣长度和宽度也有可能增加。
- "Sepal.Length" 与 "Sepal.Width" 呈负相关,但相关性较弱,说明花萼长度增加时,花萼宽度不一定会减少。
- "Petal.Length" 与 "Petal.Width" 呈极强的正相关,说明花瓣长度增加时,花瓣宽度也很可能增加。

接下来,我们可以通过绘制这些特征的热图来直观地查看它们之间的相关性。

import seaborn as sns
import matplotlib.pyplot as plt
# Heatmap of correlations
plt.figure(figsize=(10, 8))
sns.heatmap(correlation, annot=True, cmap="coolwarm", center=0, linewidths=0.5)
plt.title("Heatmap of Correlations")
plt.show()

这是特征之间相关性的热图。颜色越深,表示相关性越强。我们可以看到 "Petal.Length" 与 "Petal.Width" 的相关性最强,且呈正相关。而 "Sepal.Width" 与其余特征的相关性都相对较弱。

散点图绘制

接下来,我们可以通过绘制散点图来查看每对特征之间的关系。在这里,我们会将不同的鸢尾花种类用不同的颜色表示出来,以便观察不同种类鸢尾花在特征之间的关系。

# Pairplot to visualize the relationships between features, colored by species
sns.pairplot(iris, hue="Species")
plt.show()

上图是各特征之间的散点图矩阵,其中不同颜色代表不同种类的鸢尾花。我们可以观察到以下几点:

1. "setosa"(蓝色)与其它两种鸢尾花在花瓣长度和宽度上有明显的区别,这意味着花瓣长度和宽度可以用于区分 "setosa" 与其它种类的鸢尾花。
2. "versicolor"(橙色)和 "virginica"(绿色)在花瓣长度和宽度上的区别不如 "setosa" 明显,但仍有一定的区分度。
3. 花萼长度和宽度对于种类的区分作用不如花瓣长度和宽度明显。

箱线图绘制

接下来,我们来绘制箱线图,这将有助于我们更好地理解数据的分布以及各个特征的中位数、四分位数和异常值。

# Boxplots for each feature, grouped by species
plt.figure(figsize=(16, 10))
for i, feature in enumerate(["Sepal.Length", "Sepal.Width", "Petal.Length", "Petal.Width"], 1):
    plt.subplot(2, 2, i)
    sns.boxplot(x="Species", y=feature, data=iris)
plt.tight_layout()
plt.show()

上图是每种鸢尾花每个特征的箱线图。箱线图展示了数据的中位数、四分位数和可能的异常值。我们可以从图中观察到以下几点:

1. 对于 "Sepal.Length","virginica" 的中位数最高,"setosa" 的最低。同时,"virginica" 在 "Sepal.Length" 上的数据分布较广,而 "setosa" 的数据分布较窄。
2. 对于 "Sepal.Width","setosa" 的中位数和数据分布都比其他两种鸢尾花高和广。
3. 对于 "Petal.Length" 和 "Petal.Width","setosa" 的中位数和数据分布都比其他两种鸢尾花低和窄,而 "virginica" 的中位数和数据分布都比其他两种鸢尾花高和广。

以上的观察结果与我们之前的相关性分析和散点图矩阵的分析结果相吻合。这说明我们可以通过花瓣的长度和宽度来区分不同种类的鸢尾花,尤其是 "setosa"。

至于显著性分析,通常需要有一个特定的假设或问题,然后通过统计测试来确定观察到的结果是否具有统计显著性。在这个数据集中,我们可能会对比不同种类的鸢尾花在各个特征上是否有显著差异。

END

© 素材来源于网络,侵权请联系后台删除

笔记合集,点击直达

相关文章
|
7月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
1042 9
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
662 37
AI Compass前沿速览:ChatGPT Atlas、Claude Code、Haiku 4.5、Veo 3.1、nanochat、DeepSeek-OCR
|
10月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
7月前
|
数据采集 人工智能 程序员
PHP 程序员如何为 AI 浏览器(如 ChatGPT Atlas)优化网站
OpenAI推出ChatGPT Atlas,标志AI浏览器新方向。虽未颠覆现有格局,但为开发者带来新机遇。PHP建站者需关注AI爬虫抓取特性,优化技术结构(如SSR、Schema标记)、提升内容可读性与语义清晰度,并考虑未来agent调用能力。通过robots.txt授权、结构化数据、内容集群与性能优化,提升网站在AI搜索中的可见性与引用机会,提前布局AI驱动的流量新格局。
423 8
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1620 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
10月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
367 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
9月前
|
SQL 数据挖掘 BI
数据分析的尽头,是跳出数据看数据!
当前许多企业在数据分析上投入大量资源,却常陷入“数据越看越细,业务越看越虚”的困境。报表繁杂、指标众多,但决策难、行动少,分析流于形式。真正有价值的数据分析,不在于图表多漂亮,而在于能否带来洞察、推动决策、指导行动。本文探讨如何跳出数据、回归业务场景,实现数据驱动的有效落地。
|
SQL 人工智能 数据可视化
数据团队必读:智能数据分析文档(DataV Note)五种高效工作模式
数据项目复杂,涉及代码、数据、运行环境等多部分。随着AI发展,数据科学团队面临挑战。协作式数据文档(如阿里云DataV Note)成为提升效率的关键工具。它支持跨角色协同、异构数据处理、多语言分析及高效沟通,帮助创建知识库,实现可重现的数据科学过程,并通过一键分享报告促进数据驱动决策。未来,大模型AI将进一步增强其功能,如智能绘图、总结探索、NLP2SQL/Python和AutoReport,为数据分析带来更多可能。
839 142
|
10月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
815 8
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
649 101