《构建实时机器学习系统》一第3章 数据分析工具 Pandas 3.1 颠覆 R 的 Pandas

简介: 本节书摘来自华章出版社《构建实时机器学习系统》一 书中的第3章,第3.1节,作者:彭河森 汪涵,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第3章

数据分析工具 Pandas

3.1 颠覆 R 的 Pandas

进行机器学习应用的第一步是理解和探索数据,为此我们需要一套交互性很强的软件。一款理想的数据分析软件可以轻松地从多个来源读取数据、进行预处理,并且还要具有优良的统计和可视化功能,Pandas 就是这样一款软件。
Pandas 是一款基于 Python 的数据分析和建模的开源软件包。2012 年两位笔者刚刚在亚马逊相识的时候,如日中天的 R工具正是机器学习和数据分析的主流,而基于Python 的数据分析工具 Pandas 正在默默无闻地发展壮大。到2016 年本书写作之时,Pandas 已经完全取代了 R,成为了主流业务中数据分析的必备软件。这样的成功与Pandas 的设计是密不可分的。这其中有以下两个方面的原因。
取材于 R,超越 R:Pandas 里处处都有R 的影子。首先,Pandas 中数据的基本单位是 DataFrame。DataFrame 的基本概念来自于 R,其代表的是一个包含数据的基本单位。DataFrame 中的每一行代表一个观测,每一列代表一个变量,其中变量可以是数值、文本等多种类型,这样的数据结构大大方便了机器学习的准备工作。
优秀的生态对接:Pandas 具有优秀的对接接口,在与文本文件、HDFS、SQL等进行读写操作时非常方便。在可视化方面,Pandas 与 MatplotLib 可以说是整合得天衣无缝。最让人称道的是,为了向 R 致敬,Pandas 加入了一项参数,从而可以完全按照 R 的 ggplot 风格进行绘图,另外,Pandas 的底层数据结构也依赖于Python 生态中主流的 Numpy Array,可以非常方便地调用 numpy、scipy 中已有的模块。
本章将介绍Pandas 的基本操作。这里主要是利用Pandas 进行初步数据清理和研究工作,我们也会对数据可视化进行初步介绍。但是对于自动化可视化呈现的工作,现今市面上已经有了更为强大的 ELK(Elasticsearch、Logstash、Kibana)集群,该集群将在第9章详细介绍。

相关文章
|
10月前
|
自然语言处理 数据挖掘 数据处理
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
336 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
|
10月前
|
机器学习/深度学习 人工智能 Kubernetes
Argo Workflows 加速在 Kubernetes 上构建机器学习 Pipelines
Argo Workflows 是 Kubernetes 上的工作流引擎,支持机器学习、数据处理、基础设施自动化及 CI/CD 等场景。作为 CNCF 毕业项目,其扩展性强、云原生轻量化,受到广泛采用。近期更新包括性能优化、调度策略增强、Python SDK 支持及 AI/大数据任务集成,助力企业高效构建 AI、ML、Data Pipelines。
1091 0
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
人工智能 算法 网络安全
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
|
11月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
918 46
|
11月前
|
存储 人工智能 运维
企业级MLOps落地:基于PAI-Studio构建自动化模型迭代流水线
本文深入解析MLOps落地的核心挑战与解决方案,涵盖技术断层分析、PAI-Studio平台选型、自动化流水线设计及实战构建,全面提升模型迭代效率与稳定性。
522 6
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
592 88
|
11月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
11月前
|
机器学习/深度学习 数据采集 分布式计算
阿里云PAI AutoML实战:20分钟构建高精度电商销量预测模型
本文介绍了如何利用阿里云 PAI AutoML 平台,在20分钟内构建高精度的电商销量预测模型。内容涵盖项目背景、数据准备与预处理、模型训练与优化、部署应用及常见问题解决方案,助力企业实现数据驱动的精细化运营,提升市场竞争力。
1682 0