maxcompute 2.0复杂数据类型之struct

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 1. 含义 类似于Java中的类的概念。包含很多类的属性。 2. 场景 什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。 2.1 多个具有相同前缀的字段 其实struct完全可以拆成多个字段。

1. 含义

类似于Java中的类的概念。包含很多类的属性。

2. 场景

什么样的数据,适合使用struct类型来存储呢?这里列举了几个我在开发中实际用到的场景。

2.1 多个具有相同前缀的字段

其实struct完全可以拆成多个字段。但是对于比较宽的表而言,会有如下特征:
(1)字段数很多,几百个甚至更多;
(2)相近含义的字段,会放到相邻的位置或者使用相同的前缀,以便查找;
对于这种字段,可以考虑放到一个struct里,减少表的字段数,更加方便查找。但是数据字典的维护,依然是比较麻烦的问题。

2.2 对象列表

对象有多种固定的属性,简单的key-value格式无法满足,可以使用array嵌套struct的方式定义。减少了维护数据字典的工作量。

3. 玩转struct

3.1 构造struct

3.1.1 struct

SELECT  STRUCT(4,'赵六','男') AS c;
c
{"col1":4,"col2":"赵六","col3":"男"}

在没有指定struct内具体字段名的时候,默认为col1、col2、col3、……。所以取值的时候也是这样取,如下:

SELECT  STRUCT(4,'赵六','男').col3 AS c;
c

3.1.2 named_struct

SELECT  NAMED_STRUCT('id',3,'name','王五','gender','男') AS c;
c
{"id":3,"name":"王五","gender":"男"}

指定了struct内具体字段名,则named_struct的参数数量必须为偶数,分别是key1、value1、key2、value2、key3、value3、……。所以取值的时候也是这样取,如下:

SELECT  NAMED_STRUCT('id',3,'name','王五','gender','男').gender AS c;
c

3.2 横纵双向展开struct数组

例如现在有这样一张表:

c
[{id:1, name:张三, gender:男}, {id:3, name:王五, gender:男}, {id:2, name:李四, gender:男}]

现在想横向、纵向都展开,成多行多列格式,那么就这样做:

SELECT INLINE(c) FROM `test_table`;
id name gender
1 张三
3 王五
2 李四

但是这种做法自由度太低,所以很少会使用到。

4. 常见用法

  1. struct这种类型,更多的是应用在数据存储上。不像array、map还会出现在复杂SQL的中间过程,用于做行列转换等操作。
  2. struct作为表结构中的字段,可以单独使用,或者是跟array联用,来存储数量不固定的对象数据。在创建表的时候,需要指定好struct内部的字段名、字段类型。
  3. struct大概是三个复杂类型之中,出场率最低的一个。绝大部分人都只接触过array和map,而几乎没使用过struct。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
11月前
|
存储 SQL 大数据
大数据技术之Clickhouse---入门篇---数据类型、表引擎
大数据技术之Clickhouse---入门篇---数据类型、表引擎
|
11月前
|
存储 分布式计算 大数据
MaxCompute数据类型映射
MaxCompute数据类型映射
|
11月前
|
SQL NoSQL Java
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
|
1月前
|
存储 分布式计算 关系型数据库
实时数仓 Hologres产品使用合集之创建外部表时提示不支持ODPS的datetime数据类型,该怎么解决
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
2月前
|
SQL 分布式计算 资源调度
MaxCompute操作报错合集之执行SQL Union All操作时,数据类型产生报错,该怎么解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
2月前
|
分布式计算 Java 调度
MaxCompute产品使用合集之使用Tunnel Java SDK上传BINARY数据类型时,应该使用什么作为数据类字节
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
4月前
|
SQL 分布式计算 DataWorks
MaxCompute数据之禁止数据流出如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
|
4月前
|
机器学习/深度学习 分布式计算 算法
【大数据技术】Spark MLlib机器学习库、数据类型详解(图文解释)
【大数据技术】Spark MLlib机器学习库、数据类型详解(图文解释)
107 0
|
存储 搜索推荐 大数据
大数据数据存储的搜索引擎Elasticsearch的数据类型的复杂类型
在使用搜索引擎Elasticsearch存储大数据时,了解其数据类型是非常重要的。除了基础数据类型之外,Elasticsearch还支持多种复杂数据类型,这些数据类型通常用于存储结构化数据和关联数据。在本文中,我们将会介绍Elasticsearch的复杂数据类型。
88 0
|
存储 自然语言处理 搜索推荐
大数据数据存储的搜索引擎Elasticsearch的数据类型的基础类型
在使用搜索引擎Elasticsearch存储大数据时,了解其数据类型是非常重要的。Elasticsearch支持多种数据类型,包括基础类型和复合类型。在本文中,我们将会介绍Elasticsearch的基础数据类型。
145 0

相关产品

  • 云原生大数据计算服务 MaxCompute