教程：如何在Data Lake Analytics中使用临时表

2018-09-21 2425

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 前言 Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品，可以对存储在OSS，OTS上的数据进行查询分析。相较于传统的数据分析产品，用户无需将数据重新加载至DLA，只需在DLA中创建一张与数据源关联的表，不仅简化了分析过程，还节约了存储成本，是做大数据分析的不二之选。

前言

Data Lake Analytics (后文简称DLA)是阿里云重磅推出的一款用于大数据分析的产品，可以对存储在OSS，OTS上的数据进行查询分析。相较于传统的数据分析产品，用户无需将数据重新加载至DLA，只需在DLA中创建一张与数据源关联的表，不仅简化了分析过程，还节约了存储成本，是做大数据分析的不二之选。

当用户想通过DLA对OSS上的某个文件或者目录进行查询时，第一步需要先针对该文件或目录在DLA中创建一个table。当查询结束后，如果该table将不再使用，需要用户手动执行drop命令进行清理。

在实际应用的某些场景中，有些table只在查询中使用一次即可，但每次使用都要手动建表删表。这时，用户可以选择使用DLA的临时表。该表的生命周期仅限于一条查询语句，当查询结束后，临时表将被自动删除。

本文将以OSS数据源为例，重点介绍如何在查询语句中定义和使用临时表。

临时表

在DLA中，用户可以在查询SQL中嵌入建表语句(即，对临时表的定义)，从而对嵌入的临时表进行查询。

示例1：查询中只包含一个临时表，且建表语句相对简单。

SELECT col1, col2 FROM
TABLE temp_1
(
  col1 int,
  col2 string
)
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt'

-- 等效于 ->

CREATE EXTERNAL TABLE temp_1
(
  col1 int,
  col2 int
)
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt';

SELECT col1, col2 FROM temp_1;

示例2：查询中只含有一个临时表，建表语句中需要指定ROW FORMAT以及TBLPROPERITES。

SELECT id, string_col FROM
TABLE temp_2
(
    id INT COMMENT 'default',
    string_col STRING COMMENT 'default'
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt'
TBLPROPERTIES ('recursive.directories'='false');

-- 等效于 ->

CREATE EXTERNAL TABLE temp_2
(
    id INT COMMENT 'default',
    string_col STRING COMMENT 'default'
) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt'
TBLPROPERTIES ('recursive.directories'='false');

SELECT id, string_col from temp_2;

示例3：建表语句中含有多个临时表

SELECT temp_1.col1, temp_2.smallint_col
FROM 
TABLE temp_1
(
  col1 int,
  col2 int
)
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt';

JOIN

TABLE temp_2
(
    id INT COMMENT 'default',
    bool_col BOOLEAN COMMENT 'default',
    tinyint_col TINYINT COMMENT 'default',
    smallint_col SMALLINT COMMENT 'default',
    int_col INT COMMENT 'default',
    bigint_col BIGINT COMMENT 'default',
    float_col FLOAT COMMENT 'default',
    double_col DOUBLE COMMENT 'default',
    date_string_col STRING COMMENT 'default',
    string_col STRING COMMENT 'default',
    timestamp_col TIMESTAMP COMMENT 'default'
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ('field.delim'='|', 'serialization.format'='|') 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'oss://test-bucket-for-dla/tbl2/tbl2.csv'
TBLPROPERTIES ('recursive.directories'='false')

ON temp_1.col1 = temp_2.id
WHERE temp_2.bool_col = true;

-- 等价于 ->

CREATE EXTERNAL TABLE temp_1
(
  col1 int,
  col2 int
)
LOCATION 'oss://test-bucket-for-dla/tbl1_part/kv1.txt';

CREATE EXTERNAL TABLE temp_2
(
    id INT COMMENT 'default',
    bool_col BOOLEAN COMMENT 'default',
    tinyint_col TINYINT COMMENT 'default',
    smallint_col SMALLINT COMMENT 'default',
    int_col INT COMMENT 'default',
    bigint_col BIGINT COMMENT 'default',
    float_col FLOAT COMMENT 'default',
    double_col DOUBLE COMMENT 'default',
    date_string_col STRING COMMENT 'default',
    string_col STRING COMMENT 'default',
    timestamp_col TIMESTAMP COMMENT 'default'
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe' 
WITH SERDEPROPERTIES ('field.delim'='|', 'serialization.format'='|') 
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 'oss://test-bucket-for-dla/tbl2/tbl2.csv'
TBLPROPERTIES ('recursive.directories'='false');

SELECT temp_1.col1, temp_2.smallint_col
FROM 
temp_1
JOIN
temp_2
ON temp_1.col1 = temp_2.id
WHERE temp_2.bool_col = true;

适用场景

当OSS的目录下有数量较多的数据文件，这些文件的目录结构如下：

oss://test-bucket-for-dla/mytable/data1.csv
oss://test-bucket-for-dla/mytable/data2.csv
...
oss://test-bucket-for-dla/mytable/dataN.csv

目录mytable下的所有文件有着相同的数据结构，即表结构相同
每次SQL查询只针对一个文件，即dataN.csv

此时，用户可以考虑使用临时表进行查询，每次只需替换SQL中临时表的LOCATION路径值即可。

注意事项

在一条查询语句中的多个临时表，其表名不能相同，需要在该查询语句中具有唯一性；
在执行查询前，需要先选定一个database，可以执行 use ;
临时表的路径需要是当前database所指目录下的子目录或者文件。

教程：如何在Data Lake Analytics中使用临时表

前言

临时表

适用场景

注意事项

更多文章

云原生数据湖 Data Lake Analytics

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

教程：如何在Data Lake Analytics中使用临时表

前言

临时表

适用场景

注意事项

更多文章

云原生数据湖 Data Lake Analytics

热门文章

最新文章

相关电子书