Pandas vs Spark：数据读取篇-阿里云开发者社区

Pandas vs Spark：数据读取篇

2022-05-27 595

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 按照前文所述，本篇开始Pandas和Spark常用数据处理方法对比系列。数据处理的第一个环节当然是数据读取，所以本文就围绕两个框架常用的数据读取方法做以介绍和对比。

数据读取是所有数据处理分析的第一步，而Pandas和Spark作为常用的计算框架，都对常用的数据源读取内置了相应接口。总体而言，数据读取可分为从文件读取和从数据库读取两大类，其中数据库读取包含了主流的数据库，从文件读取又区分为不同的文件类型。基于此，本文首先分别介绍Pandas和Spark常用的数据读取API，而后进行简要对比分析。

01 Pandas常用数据读取方法

Pandas内置了丰富的数据读取API，且都是形如pd.read_xxx格式，通过对pd顶级接口方法进行过滤，得到Pandas中支持的数据读取API列表如下：

过滤pandas中以read开头的方法名称

按照个人使用频率，对主要API接口介绍如下：

read_sql：用于从关系型数据库中读取数据，涵盖了主流的常用数据库支持，一般来讲pd.read_sql的第一个参数是SQL查询语句，第二个参数是数据库连接驱动，所以从这个角度讲read_sql相当于对各种数据库读取方法的二次包装和集成；
read_csv：其使用频率不亚于read_sql，而且有时考虑数据读取效率问题甚至常常会首先将数据从数据库中转储为csv文件，而后再用read_csv获取。这一转储的过程目的有二：一是提高读取速度，二是降低数据读取过程中的运行内存占用（实测同样的数据转储为csv文件后再读取，内存占用会更低一些）；
read_excel：其实也是对xlrd库的二次封装，用来读取Excel文件会更加方便，但日常使用不多；
read_json：json文件本质上也属于结构化数据，所以也可将其读取为DataFrame类型，但如果嵌套层级差别较大的话，读取起来不是很合适；
read_html：这应该算是Pandas提供的一个小彩蛋了，表面上看它就是一个用于读取html文件中数据表格的接口，但实际上有人却拿他来干着爬虫的事情……
read_clipboard：这可以算是Pandas提供的另一个小彩蛋，用于从剪切板中读取结构化数据到DataFrame中。至于数据是如何到剪切板中的，那方式可能就多种多样了，比如从数据库中复制、从excel或者csv文件中复制，进而可以方便的用于读取小型的结构化数据，而不用大费周章的连接数据库或者找到文件路径！
read_table：可用于读取txt文件，使用频率不高；
read_parquet：Parquet是大数据中的标志性文件，Pandas也对其予以支持，但依赖还是很复杂的；
另外，还有ocr和pickle等文件类型，其中OCR是Hive中的标准数据文件类型，与Parquet类似，也是列式存储，虽然Pandas也提供支持，但既然是大数据，其实与Pandas已经关系不大了；而pickle则是python中常用的序列化存储格式。

在以上方法中，重点掌握和极为常用的数据读取方法当属read_sql和read_csv两种，尤其是read_csv不仅效率高，而且支持非常丰富的参数设置，例如支持跳过指定行数(skip_rows)后读取一定行数(nrows)的数据，就是这个小技巧使得曾经小内存的我也能得以处理大数据，着实欣喜！

02 Spark常用数据读取方法

与Pandas类似，Spark也提供了丰富的数据读取API，对于常用的数据读取方法也都给予了非常好的支持。这里以Scala Spark为例，通过tab键补全命令查看常用的数据读取方法如下：

通过spark-shell的tab键补全得到spark.read.的系列方法

可以明显注意到Spark的数据读取API与Pandas接口名称的一个显著区别是：Spark采用二级接口的方式，即首先调用read属性获取读接口的类，然后再区分数据源细分为各种类型；而Pandas则是直接提供了read_各数据类型的API。仍然按照使用频率来分：

spark.read.parquet：前面已经提到，parquet是大数据中的标准文件存储格式，也是Apache的顶级项目，相较于OCR而言，Parquet更为流行和通用。Parquet的优势也不少，包括内置了数据Schema、高效的压缩存储等；
spark.read.jdbc：通过jdbc提供了对读取各主流数据库的支持，由于其实际上也是一个类，所以相应的参数设置都要依托option方法来进行传递，最后通过执行load实现数据的读取。但不得不说，spark内置的一些默认参数相较于Pandas而言合理性要差很多，例如fetchSize默认为10，这对于大数据读取而言简直是致命的打击，谁用谁知道……
spark.read.csv：spark对于csv文件也给予了很好的支持，但参数配置相较于Pandas而言则要逊色很多
spark.read.textFile：典型的txt文件读取方式，相信很多人的一个Spark项目word count大多是从读取txt文件开始的吧，不过对于个人而言好像也仅仅是在写word count时才用到了read.textFile。
其他也有read.json和read.orc等，但使用频率不高。

如果说Pandas读取数据库是最为常用的方法，那么Spark其实最为常用的当属Parquet，毕竟Parquet文件与Spark等同为Apache顶级项目，而且更具大数据特色，称得上是大数据文件存储的业界规范！

03 小结

整体来看，Pandas和Spark在数据读取方面都提供了丰富的接口，支持的数据源类型也大体相当。但对参数支持和易用性方面，Pandas对数据库和csv文件相对更加友好，而Spark与Parquet文件格式则更为搭配。虽然同为数据计算框架，但Pandas是单机计算模式，而Spark则是分布式计算，所以不同的数据量级也自然决定了数据源的侧重点不同，本无高下之分，只能说各有千秋。