备案控制台

开发者社区开发与运维文章正文

真香还是假香，Python处理分析128张Excel表格竟然不到3秒？| 附案例数据集

2022-05-08 185

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文以一个简单又复杂的场景切入，简单是需求本身非常简单，而复杂则是基础数据涉及到的表格多而杂。代码和逻辑本身浅显易懂，主要为了抛出一块砖，敲开批量处理表格的思维藩篱，以引出同志们实践中，在合适场景下用Python来化繁为简的玉。案例中表格共128张，大家可以自己尝试和探索更有趣的分析。

案例背景

在另一个平行世界，有一家专注于户外运动的巨头公司。既然是巨头，为了更加亲切，我们就叫他大头吧。大头的旗下有20个品牌，这些品牌涉及到128个类目（细分行业），涉及范围之广令人咋舌，可谓遍地开花。

平行世界的小Z就是这家巨无霸的数据分析师，今天刚来公司就接到了一个需求——下班前务必筛选出近一年销售额总额TOP5的品牌以及对应的销售额。

近一年？TOP5？

WOC，这么简单的需求也算需求？直接排个序不就好了。

还一天时间，不急不急，先来一杯咖啡，再看看新闻。

一眨眼的功夫，时间来到了17:30，小Z觉得今天的需求可以开动了，做完之后还能简单分析一下，应该能赶在18:00整点下班。

当他打开同事共享给他的表格文件，他才体会到，绝望，原来这么远，又这么近。

业务部门的同事总共发来了128张表，每一份表格对应着一个细分行业的数据，像什么各类户外服装、垂钓装备、救生装备应有尽有。

每张表，以月的维度（2018年9月-2019年8月，近一年）记录着每个品牌的日期、访客、客单、转化、所属类目（细分行业）等数据：

小Z开始盘算，最终需求是要筛选出近一年销售额总和排名前5的品牌，这一摊子数据，对单独的一张表进行分类汇总，能够得到该细分行业各品牌的销售额，想要得到所有行业的销售额总和，得分类汇总128次，最后对128次结果再次合并。

“这个任务看上去很艰巨，不过，考验的主要是体力。”小Z一眼就“看穿”了事情的本质。同时脑海中蹦出了“红军不怕远征难”几个红彤彤的大字。接着，他带上耳机，打开了唐朝乐队的“国际歌”，在双重buff的加持下，开始了表格的远征。

果然是个处理数据的好手，小Z右手食指在鼠标上飞速跳动，以90秒一张表格的速度疯狂推进。按照这个速度，不考虑疲劳值对速度的拖累，大概3.2个小时就能够完成任务。

国际歌循环到第10遍，小Z有些气馁，第20遍，开始感到绝望。

就在行将放弃之际，他想起了Python的潘大师（Pandas），虽然最近刚学还不是很熟练，但事到临头，黑暗中的一缕微光，那就是唯一的希望，小Z决定用Pandas来尝试解决问题。

他明白，用Python解决批量问题的核心，在于梳理并解决单个问题，然后批量循环。

单个表格处理

首先，导入模块，打开单个表格：

接着，是要汇总不同品牌在这个细分行业下的销售额，我们要汇总的是各品牌近一年（2018年9月-2019年8月）的销售额，先看看日期是否正确：

正要汇总销售额，小Z发现没有销售额的字段，但销售额是可以通过访客数*转化率*客单价三者的乘积来计算的：

按品牌来汇总销售额，得到近一年各品牌销售额合计：

这里有个细节，最终小Z要汇总的是所有细分行业的销售额，对于单独行业的销售额，应该加一个区分的标签以防覆盖，而打开时候的文件名，具有天然的区分和防覆盖优势，但要注意去掉文件的后缀。

OK，单个表格处理完成，我们把这一系列操作推而广之即可。

批量循环执行

小Z用os.listdir方法来遍历文件名，批量循环访问并处理文件，同时引入time计时，打算看一看，面对128张表，Python完成这些操作到底能够比手动快多少：

整个过程一气呵成，不到3秒，平均一张表格0.02秒！真香！

为了确保数据正常，来预览一下：

这一串看起来很奇怪的销售额，是pandas自作主张把实际销售额变成了科学记数法形式来展示，要还原数值，需要更改一下原始的设置：

OK，无论是习惯还是法理，都得到了我们希望的结果——近一年销售TOP5品牌及其对应的销售额。从数据结果来看，大头公司下的20个品牌全面开花，以品牌5为先锋，一年销售高达12.26亿，排名最后的品牌体量也达到了9.79亿元，平均单品牌销售10.85亿元。

总结

本文以一个简单又复杂的场景切入，简单是需求本身非常简单，而复杂则是基础数据涉及到的表格多而杂。代码和逻辑本身浅显易懂，主要为了抛出一块砖，敲开批量处理表格的思维藩篱，以引出同志们实践中，在合适场景下用Python来化繁为简的玉。案例中表格共128张，大家可以自己尝试和探索更有趣的分析。

文章标签：

Python

关键词：

Python分析

Python Excel

Python表格

excel表格

Python数据集

数据不吹牛

目录

相关文章

智物科技库

|

9天前

|

缓存 Rust 算法

从混沌到秩序：Python的依赖管理工具分析

Python 的依赖管理工具一直没有标准化，主要原因包括历史发展的随意性、社区的分散性、多样化的使用场景、向后兼容性的挑战、缺乏统一治理以及生态系统的快速变化。依赖管理工具用于处理项目中的依赖关系，确保不同环境下的依赖项一致性，避免软件故障和兼容性问题。常用的 Python 依赖管理工具如 pip、venv、pip-tools、Pipenv、Poetry 等各有优缺点，选择时需根据项目需求权衡。新工具如 uv 和 Pixi 在性能和功能上有所改进，值得考虑。

智物科技库

62 35 35

Deephub

|

17天前

|

机器学习/深度学习数据可视化数据挖掘

使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析

在现代数据分析中，高维时间序列数据的处理和预测极具挑战性。基于矩阵分解的长期事件（MFLEs）分析技术应运而生，通过降维和时间序列特性结合，有效应对大规模数据。MFLE利用矩阵分解提取潜在特征，降低计算复杂度，过滤噪声，并发现主要模式。相比传统方法如ARIMA和深度学习模型如LSTM，MFLE在多变量处理、计算效率和可解释性上更具优势。通过合理应用MFLE，可在物联网、金融等领域获得良好分析效果。

Deephub

34 0 0

使用Python实现基于矩阵分解的长期事件(MFLEs)时间序列分析

Deephub

|

11天前

|

数据采集数据可视化数据挖掘

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

本文探讨了金融资产波动率建模中的三种主流方法：GARCH、GJR-GARCH和HAR模型，基于SPY的实际交易数据进行实证分析。GARCH模型捕捉波动率聚类特征，GJR-GARCH引入杠杆效应，HAR整合多时间尺度波动率信息。通过Python实现模型估计与性能比较，展示了各模型在风险管理、衍生品定价等领域的应用优势。

Deephub

136 65 65

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

Deephub

|

20天前

|

数据可视化算法数据挖掘

Python时间序列分析工具Aeon使用指南

**Aeon** 是一个遵循 scikit-learn API 风格的开源 Python 库，专注于时间序列处理。它提供了分类、回归、聚类、预测建模和数据预处理等功能模块，支持多种算法和自定义距离度量。Aeon 活跃开发并持续更新至2024年，与 pandas 1.4.0 版本兼容，内置可视化工具，适合数据探索和基础分析任务。尽管在高级功能和性能优化方面有提升空间，但其简洁的 API 和完整的基础功能使其成为时间序列分析的有效工具。

Deephub

66 37 37

Python时间序列分析工具Aeon使用指南

Deephub

|

15天前

|

机器学习/深度学习运维数据可视化

Python时间序列分析：使用TSFresh进行自动化特征提取

TSFresh 是一个专门用于时间序列数据特征自动提取的框架，支持分类、回归和异常检测等机器学习任务。它通过自动化特征工程流程，处理数百个统计特征（如均值、方差、自相关性等），并通过假设检验筛选显著特征，提升分析效率。TSFresh 支持单变量和多变量时间序列数据，能够与 scikit-learn 等库无缝集成，适用于大规模时间序列数据的特征提取与模型训练。其工作流程包括数据格式转换、特征提取和选择，并提供可视化工具帮助理解特征分布及与目标变量的关系。

Deephub

55 16 16

Python时间序列分析：使用TSFresh进行自动化特征提取

爬虫工程师Azeroth

|

14天前

|

数据采集缓存 API

python爬取Boss直聘，分析北京招聘市场

本文介绍了如何使用Python爬虫技术从Boss直聘平台上获取深圳地区的招聘数据，并进行数据分析，以帮助求职者更好地了解市场动态和职位需求。

爬虫工程师Azeroth

40 1 1

1447873204649124

|

28天前

|

数据可视化数据挖掘大数据

1.1 学习Python操作Excel的必要性

学习Python操作Excel在当今数据驱动的商业环境中至关重要。Python能处理大规模数据集，突破Excel行数限制；提供丰富的库实现复杂数据分析和自动化任务，显著提高效率。掌握这项技能不仅能提升个人能力，还能为企业带来价值，减少人为错误，提高决策效率。推荐从基础语法、Excel操作库开始学习，逐步进阶到数据可视化和自动化报表系统。通过实际项目巩固知识，关注新技术，为职业发展奠定坚实基础。

1447873204649124

58 8 8

Deephub

|

2月前

|

数据可视化算法数据挖掘

Python量化投资实践：基于蒙特卡洛模拟的投资组合风险建模与分析

蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法，广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据，通过模拟生成未来价格路径，分析投资风险与收益，包括VaR和CVaR计算，以辅助投资者制定合理决策。

Deephub

86 15 15

无糖可乐嘟嘟

|

2月前

|

数据采集数据可视化数据挖掘

利用Python自动化处理Excel数据：从基础到进阶####

本文旨在为读者提供一个全面的指南，通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者，本文都将帮助你掌握Pandas和openpyxl这两个强大的库，从而提升数据处理的效率和准确性。我们将从环境设置开始，逐步深入到数据读取、清洗、分析和可视化等各个环节，最终实现一个实际的自动化项目案例。 ####

无糖可乐嘟嘟

219 10 10

奔跑的数据

|

4月前

|

数据采集存储 JavaScript

自动化数据处理：使用Selenium与Excel打造的数据爬取管道

本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库（branddb.wipo.int）自动化爬取专利信息的方法。通过Selenium模拟用户操作，处理JavaScript动态加载页面，利用代理IP避免IP封禁，确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中，便于后续分析。此外，文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧，并探讨了未来可能采用的更多防反爬策略，以提升爬虫效率和稳定性。

奔跑的数据

233 4 4

热门文章

最新文章

【01】做一个精美的打飞机小游戏，浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

请问：如何使用python对物联网平台上设备的属性进行更改？

[oeasy]python062_在python中完成输入和输出_input_print

我的阿里云社区年度总结报告：Python、人工智能与大数据领域的探索之旅

Python 虚拟环境配置

Python装饰器实战：打造高效性能计时工具

如何在Python中高效地读写大型文件？

基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法

【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈

java的excel列行合并模版

vue导出excel无法打开问题

aspose实现word，excel等文件预览

java导出复杂excel

excel合并列导出文件

基于jeecgboot的flowable流程任务excel导出功能

C#NPOI操作Excel详解

C# 实现格式化文本导入到Excel

使用JavaScript和XLSX.js将数据导出为Excel文件

DataWorks产品使用合集之在 DataWorks 中将本地数据导入至 Excel 电子表格中如何解决

相关课程

更多

Python Web开发基础

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

golang

下一篇

阿里云上1分钟搞定幻兽帕鲁联机服务器搭建