Parquet中的分区发现是什么呢？_问答-阿里云开发者社区

分区表时很多系统支持的，比如hive，对于一个分区表，往往是采用表中的某一或多个列去作为分区的依据，分区是以文件目录的形式体现。所有内置的文件源(Text/CSV/JSON/ORC/Parquet)都支持自动的发现和推测分区信息。例如，我们想取两个分区列，gender和country，先按照性别分区，再按照国家分区：

path└── to └── table ├── gender=male │ ├── ... │ │ │ ├── country=US │ │ └── data.parquet │ ├── country=CN │ │ └── data.parquet │ └── ... └── gender=female ├── ... │ ├── country=US │ └── data.parquet ├── country=CN │ └── data.parquet └── ... SparkSession.read.parquet 或者 SparkSession.read.load读取的目录为path/to/table的时候，会自动从路径下抽取分区信息。返回DataFrame的表结构为：

root|-- name: string (nullable = true)|-- age: long (nullable = true)|-- gender: string (nullable = true)|-- country: string (nullable = true) 细细分析一下你也会发现分区列的数据类型也是自动推断的。当前支持的数据类型有，数字类型，date，timestamp和string类型。有时候用户可能不希望自动推断分区列的类型，这时候只需要将spark.sql.sources.partitionColumnTypeInference.enabled配置为false即可。如果分区列的类型推断这个参数设置为了false，那么分区列的类型会被认为是string。

从spark 1.6开始，分区发现默认情况只会发现给定路径下的分区。比如，上面的分区表，假如你讲路径path/to/table/gender=male传递给SparkSession.read.parquet 或者 SparkSession.read.load 那么gender不会被认为是分区列。如果想检测到该分区，传给spark的路径应该是其父路径也即是path/to/table/，这样gender就会被认为是分区列。

Parquet 数据源支持自动检测新作列并且会合并schema。

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Parquet中的分区发现是什么呢？