Data Lake Analytics: 以SQL方式查询Redis数据

简介: Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于Redis 的支持, 这篇教程带你玩转 DLA 的 Redis 支持。创建数据库在 DLA 里面创建一个底层映射到 Redis 的数据库的语法如下:CREATE DATABASE `redis_test`WIT...

dla_plus_redis

Data Lake Analytics 作为云上数据处理的枢纽,最近加入了对于Redis 的支持, 这篇教程带你玩转 DLA 的 Redis 支持。

创建数据库

在 DLA 里面创建一个底层映射到 Redis 的数据库的语法如下:

CREATE DATABASE `redis_test`
WITH DBPROPERTIES (
    catalog = 'redis',
    location = 'r-xxxxx.redis.rds.aliyuncs.com:6379/hello_',
    password = 'xxxxx',
    vpc_id = 'vpc-xxxxx',
    instance_id = 'r-xxxxxx'
)

这里要特别说明一下这个 location 属性,前面 r-xxxxx.redis.rds.aliyuncs.com:6379 是redis服务器的域名和端口,最后的 hello_ 是一个前缀,具体的用途后面再细说,redis服务的域名和端口你可以从阿里云控制直接查询到:

域名和端口

跟普通的建库语法不同的是这里多了两个属性: VPC_IDINSTANCE_ID , 这是因为现在用户的 Redis 数据库都是处于用户自己的VPC内部,默认情况下 DLA 是访问不了用户 VPC 里面的资源的,为了让DLA能够访问到用户RDS里面的数据,我们需要利用阿里云的VPC反向访问技术。

权限声明: 当您通过上述方式建库,就视为您同意我们利用VPC反向访问的技术去读写您的 Redis 。

另外您还需要把 100.104.0.0/16 加入你的 Redis 的白名单列表,这是我们VPC反向访问的IP地段,如下图:

ip_whitelist

创建表

数据库建完之后,我们可以建表了,我们先在你的 Redis 里初始化一些数据用来测试, 因为Redis是没有schema信息的,我们必须往里面插入数据才能生效,所以我们插入一些测试数据:

# CSV格式的数据
set hello_world_1 1,james,10
set hello_world_2 2,bond,20
set hello_world_3 3,lily,30
set hello_world_4 4,lucy,20

# JSON格式的数据
set hello_foo_1 '{"id":1,"name":"james","age":110}'
set hello_foo_2 '{"id": 2, "name": "bond", "age": 210}'
set hello_foo_3 '{"id": 3, "name": "lily", "age": 310}'
set hello_foo_4 '{"id": 3, "name": "lucy", "age": 210}'

我们插入了两种格式的数据,一种是CSV格式的,一种是JSON格式的,这是我们目前支持的两种格式,后面会分别演示。

然后就可以在 DLA 的数据库里面建立相应的映射表了:

CREATE EXTERNAL TABLE dla_person (
    id int,
    name varchar,
    age int
) TBLPROPERTIES (
    COLUMN_MAPPING = 'id,2;name,1;age,0',
    TABLE_MAPPING = 'world_',
    format = 'csv'
);

这里几个字段详细说明一下:

TABLE_MAPPING 让我们可以让DLA层面的表名映射到底层Redis里面指定模式的的一组key。回忆一下我们前面在建库的时候指过前缀 hello_ , 再与这里的 world_ 相结合,表达的意思就是:

dla_person 里面的数据映射到Redis数据库里面所有key的前缀为 hello_world_ 的数据。

这里,你也可以省略这个设置,默认的前缀跟表名一致,在上面的例子里面省略 TABLE_MAPPING, 那么最终查询的key的前缀为 hello_dla_person

下一个我们关注一下参数 format, 这里指定Redis里面数据的格式,目前支持: csv, json 两种格式。

COLUMN_MAPPING 的作用是把DLA层面的列映射到底层的数据上,由于Redis底层没有column的概念,因此具体映射的方法根据 format 的不同而不同, 比如这里的 CSV, 我们知道CSV的数据被解析之后会形成一个string数组,对应的column_mapping就映射到底层这个数组的index(下标)。比如这里把 id 映射到下标 2, 把 name 映射到下标 1 等等。

column_mapping 也可以不设置,对于CSV格式来说会按照column声明的顺序依次映射到0, 1, 2等等。

这样我们就可以通过MySQL客户端连接到 DLA 数据库上面,就可以对 Redis 数据库里面的数据进行查询了:

mysql> select * from dla_person;
+-------+------+------+
| name  | id   | age  |
+-------+------+------+
| bond  |   20 |    2 |
| lily  |   30 |    3 |
| lucy  |   20 |    4 |
| james |   10 |    1 |
+-------+------+------+
4 rows in set (0.18 sec)

熟悉SQL的同学一定觉得很爽吧,可以去熟悉的SQL语法去操作 Redis 数据库了。

JSON

上面演示的是CSV格式的数据,下面我们再来试试JSON格式的数据,我们再来创建一个新表:

CREATE EXTERNAL TABLE dla_person_json (
    id int,
    name varchar,
    age int
) TBLPROPERTIES (
    COLUMN_MAPPING = 'id,age;name,name;age,id',
    TABLE_MAPPING = 'foo_',
    format = 'json'
);

注意这里我们指定了 TABLE_MAPPINGfoo_,结合数据库的前缀 hello_, 因此它最终查询的是Redis里面所有前缀为 hello_foo_ 的数据; 另外这里还指定了 COLUMN_MAPPING, 因为JSON数据里面是有字段名字的,因此DLA的层面的column的名字是映射到JSON数据里面字段的名字的,这里为了演示的需要故意把DLA的 id column映射到了 Redis的 age, 我们来查询看看结果:

mysql> select * from dla_person_json;
+-------+------+------+
| name  | id   | age  |
+-------+------+------+
| lucy  |  210 |    3 |
| james |  110 |    1 |
| bond  |  210 |    2 |
| lily  |  310 |    3 |
+-------+------+------+
4 rows in set (0.12 sec)

如我们所愿,id column显示的是Redis里面对应的 age 字段的值。

总结

我们今天介绍了DLA对于Redis的支持,目前DLA支持的数据源已经包括: OSS, OTS, RDS(MySQL, SQLServer, Postgres), MongoDB, Redis等等 数据可以在这些数据源之间进行联合JOIN、流转,更多详细的介绍可以直接去我们的官网试用。

Happy DLAing!

目录
相关文章
|
8月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
简介:本文整理自阿里云高级技术专家李麟在Flink Forward Asia 2025新加坡站的分享,介绍了Flink 2.1 SQL在实时数据处理与AI融合方面的关键进展,包括AI函数集成、Join优化及未来发展方向,助力构建高效实时AI管道。
1067 43
|
8月前
|
SQL 人工智能 JSON
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
本文整理自阿里云的高级技术专家、Apache Flink PMC 成员李麟老师在 Flink Forward Asia 2025 新加坡[1]站 —— 实时 AI 专场中的分享。将带来关于 Flink 2.1 版本中 SQL 在实时数据处理和 AI 方面进展的话题。
476 0
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
|
11月前
|
缓存 NoSQL 关系型数据库
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
美团面试:MySQL有1000w数据,redis只存20w的数据,如何做 缓存 设计?
|
9月前
|
SQL
SQL如何只让特定列中只显示一行数据
SQL如何只让特定列中只显示一行数据
|
12月前
|
NoSQL 安全 Java
深入理解 RedisConnectionFactory:Spring Data Redis 的核心组件
在 Spring Data Redis 中,`RedisConnectionFactory` 是核心组件,负责创建和管理与 Redis 的连接。它支持单机、集群及哨兵等多种模式,为上层组件(如 `RedisTemplate`)提供连接抽象。Spring 提供了 Lettuce 和 Jedis 两种主要实现,其中 Lettuce 因其线程安全和高性能特性被广泛推荐。通过手动配置或 Spring Boot 自动化配置,开发者可轻松集成 Redis,提升应用性能与扩展性。本文深入解析其作用、实现方式及常见问题解决方法,助你高效使用 Redis。
1180 4
|
7月前
|
存储 缓存 NoSQL
Redis专题-实战篇二-商户查询缓存
本文介绍了缓存的基本概念、应用场景及实现方式,涵盖Redis缓存设计、缓存更新策略、缓存穿透问题及其解决方案。重点讲解了缓存空对象与布隆过滤器的使用,并通过代码示例演示了商铺查询的缓存优化实践。
313 1
Redis专题-实战篇二-商户查询缓存
|
SQL 自然语言处理 数据库
【Azure Developer】分享两段Python代码处理表格(CSV格式)数据 : 根据每列的内容生成SQL语句
本文介绍了使用Python Pandas处理数据收集任务中格式不统一的问题。针对两种情况:服务名对应多人拥有状态(1/0表示),以及服务名与人名重复列的情况,分别采用双层for循环和字典数据结构实现数据转换,最终生成Name对应的Services列表(逗号分隔)。此方法高效解决大量数据的人工处理难题,减少错误并提升效率。文中附带代码示例及执行结果截图,便于理解和实践。
313 5
|
11月前
|
数据采集 存储 NoSQL
基于Scrapy-Redis的分布式景点数据爬取与热力图生成
基于Scrapy-Redis的分布式景点数据爬取与热力图生成
742 67
|
9月前
|
NoSQL Java Redis
Redis基本数据类型及Spring Data Redis应用
Redis 是开源高性能键值对数据库,支持 String、Hash、List、Set、Sorted Set 等数据结构,适用于缓存、消息队列、排行榜等场景。具备高性能、原子操作及丰富功能,是分布式系统核心组件。
717 2
|
11月前
|
消息中间件 缓存 NoSQL
基于Spring Data Redis与RabbitMQ实现字符串缓存和计数功能(数据同步)
总的来说,借助Spring Data Redis和RabbitMQ,我们可以轻松实现字符串缓存和计数的功能。而关键的部分不过是一些"厨房的套路",一旦你掌握了这些套路,那么你就像厨师一样可以准备出一道道饕餮美食了。通过这种方式促进数据处理效率无疑将大大提高我们的生产力。
338 32

热门文章

最新文章