体验 Serverless StarRocks × Paimon (DLF) 查询 TPC-DS 标准库性能

简介: 体验 Serverless StarRocks × Paimon (DLF) 查询 TPC-DS 标准库性能

前提条件


创建 StarRocks 实例并绑定 DLF Catalog

DLF的访问控制是RAM级别的。默认情况下,所有StarRocks用户均不具备DLF的任何权限,因此您必须创建一个和RAM用户同名的内部用户,并为其授予相应的权限。

  1. 创建RAM用户。
  1. 使用阿里云账号或RAM管理员登录RAM控制台
  2. 创建一个新的RAM用户或选择一个已有RAM用户。创建RAM用户,请参见创建RAM用户并授权
  3. RAM 访问控制-身份管理-用户-添加权限中给该 RAM 角色授权 AliyunDLFFullAccessAliyunOSSReadOnlyAccess
  1. 在DLF中为该RAM用户授权以访问共享资源。
  1. 登录数据湖构建控制台
  2. 切换到系统和安全-访问控制-角色,授予上一步所选用户访问权限:super_administrator 或 admin。
    例如:RAM用户的用户名为emr,授予该用户权限。注:如找不到该用户,请前往系统和安全-访问控制-用户,点击同步后再操作。

  1. 创建Serverless StarRocks 3.3.8及以上版本的实例。Serverless StarRocks服务与DLF位于同一VPC下。如已创建低版本的实例,请参见 版本升级。如未创建,请参见创建实例,并绑定已创建的TPC-DS 标准样例数据目录和 RAM 角色。


创建StarRocks账号与授权(可选)

如您使用的是已有的 StarRocks 实例或在创建时没有绑定 DLF,需使用 StarRocks admin RAM 账号创建一个与先前创建的 RAM同名的用户。赋予该用户创建External Catalog以及查看所有Catalog的权限,并将该用户与RAM用户关联。

  1. 如您的 StarRocks 实例 admin 尚未绑定 RAM 用户,可在安全中心-用户管理中关联 RAM 用户。
  2. 使用 StarRocks admin 的RAM账号 登录EMR Serverless StarRocks控制台
  3. 实例列表页面,单击已创建实例操作列的连接实例,详情请参见通过EMR StarRocks Manager连接StarRocks实例
  4. 指定用户名为admin或StarRocks超级管理员,连接StarRocks实例。实例连接常见问题:查看地域、用户名是否正确。
  5. 在EMR StarRocks Manager页面的左侧菜单栏,选择安全中心 > 用户管理,单击添加用户
  6. 在弹出的对话框中,配置以下信息,单击确定
  1. 用户来源:选择RAM用户
  2. 用户名:选择 DLF 中授权的RAM用户。
  3. 密码:自定义。
  4. 角色:默认public。
  1. 添加用户成功后,为该用户授权。
  1. 用户管理页面,单击目标用户操作列的授权
  2. 权限管理页签,单击添加权限
  3. 添加权限面板中,配置以下参数,单击确定
  • 资源:选择相应资源。
  • 权限配置:勾选需要授权的权限。
  1. 通过 SQL 创建并绑定 DLF 中的 Catalog:
    说明这里仅用于建立与DLF Catalog的映射连接,创建或删除Catalog仅影响映射关系,不会对DLF中的实际数据产生影响。
  2. 使用配置好的 RAM用户登录StarRocks Manager,创建或查看Catalog,即可访问到DLF外表。
  1. SQL Editor查询列表页面,单击 图标,创建SQL查询。
  2. 输入以下SQL,单击运行,创建External Catalog。
CREATE EXTERNAL CATALOG `dlf_samples`
PROPERTIES (
'type' = 'paimon',
'uri' = 'http://cn-hangzhou-vpc.dlf.aliyuncs.com',
'paimon.catalog.type' = 'rest',
'paimon.catalog.warehouse' = 'dlf_samples',
'token.provider' = 'dlf'
);


参数说明如下。

参数

说明

示例

type

必填,StarRocks的Catalog类型,DLF当前只支持paimon

paimon

uri

必填,格式为http://[region-id]-vpc.dlf.aliyuncs.com

http://cn-hangzhou-vpc.dlf.aliyuncs.com

paimon.catalog.type

必填,Paimon的Catalog类型,DLF场景填写固定值rest

rest

paimon.catalog.warehouse

必填,Paimon的Catalog名称,可从DLF控制台上获取。

dlf_samples

token.provider

必填,Rest服务提供者,DLF固定填dlf

dlf

说明此处StarRocks Manager中授权数据库与授权权限的内容只包含StarRocks内表。要想修改DLF数据目录的访问权限,只能在数据湖构建控制台修改对应同名RAM用户的权限。

  1. (可选)验证用户是否关联成功。

因上一步操作有10~20秒的延迟,您可使用该用户登录StarRocks Manager,在SQL Editor查询列表页面,单击 图标,创建SQL查询。通过SQL Editor执行以下命令,查看当前用户关联的Ram User ID,不为空时说明关联成功。

show property;


测试TPC-DS 标准样例数据库

完成上述步骤后,使用 与DLF关联的RAM账号 登录EMR Serverless StarRocks控制台

  1. 实例列表页面,单击已创建实例操作列的连接实例,详情请参见通过EMR StarRocks Manager连接StarRocks实例
  2. 指定用户名为admin或StarRocks超级管理员,连接StarRocks实例。实例连接常见问题:查看地域、用户名是否正确。
  3. StarRocks Manager-元数据管理中可查看绑定的 catalog。

通过共享样例数据集,可快速验证数据处理性能、优化查询效率或进行功能验证。

数据库名

Scale Factor (SF)

数据量级

适用场景

tpcds_paimon_sf1

1

~1 GB

快速验证、开发测试

tpcds_paimon_sf2

2

~2 GB

中等测试、学习

tpcds_paimon_sf10

10

~10 GB

性能测试、压测

tpcds_paimon_sf100

100

~100 GB

生产级 benchmark、性能对比


使用 TPC-DS Query 3 作为性能测试示例、tpcds_paimon_sf100(约 100 GB)的 Paimon 表做性能压测。TPC-DS 是业界标准的决策支持基准,其查询设计复杂、贴近真实分析场景。

Query 3 是 TPC-DS 中经典的 多表关联 + 聚合 + 过滤 + 排序 查询,能有效测试:

  • 大表 Join 性能(customer, customer_address, store_sales
  • 分区裁剪(store_sales 按日期分区)
  • 聚合与排序效率
  • I/O 与内存压力

找出过去两年中,在特定州(如 'IL', 'IN', 'KS')购买过商品的客户,按年份和城市统计购买人数,并限制结果前 100 行。

  1. 在 StarRocks Manager 中的 SQL Editor查询列表页面,单击 图标,创建SQL查询。
  2. 输入以下SQL,单击运行,查询结果。
-- TPC-DS Query 3: 客户地域分布分析(性能压测)
SELECT 
    dt.d_year,
    ca.ca_state,
    ca.ca_city,
    COUNT(*) AS customer_cnt
FROM 
    dlf_samples.tpcds_paimon_sf100.customer c
JOIN 
    dlf_samples.tpcds_paimon_sf100.customer_address ca 
    ON c.c_current_addr_sk = ca.ca_address_sk
JOIN 
    dlf_samples.tpcds_paimon_sf100.store_sales ss 
    ON c.c_customer_sk = ss.ss_customer_sk
JOIN 
    dlf_samples.tpcds_paimon_sf100.date_dim dt 
    ON ss.ss_sold_date_sk = dt.d_date_sk
WHERE 
    ca.ca_state IN ('IL', 'IN', 'KS')  -- 选择高数据量的州
    AND dt.d_year BETWEEN 2000 AND 2002  -- 覆盖多个分区
GROUP BY 
    dt.d_year,
    ca.ca_state,
    ca.ca_city
ORDER BY 
    dt.d_year,
    ca.ca_state,
    ca.ca_city
LIMIT 100;


实验结果表明,EMR Serverless StarRocks 查询100 GB 大表 Join 仅需要 6.2 秒!


相关文档:

共享样例数据集

Serverless StarRocks访问DLF

目录
相关文章
|
30天前
|
SQL 人工智能 分布式计算
【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析
【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析
300 3
|
2月前
|
人工智能 JSON 自然语言处理
构建AI智能体:三十一、AI医疗场景实践:医学知识精准问答+临床智能辅助决策CDSS
本文探讨了医疗AI从传统规则系统向大模型的演进,重点介绍了基于RAG技术的医学知识精准问答系统与临床智能辅助决策系统(CDSS)的构建原理与应用。二者协同工作,前者提供权威知识检索,后者结合患者数据生成个性化诊疗建议,共同提升医疗效率、安全与质量,助力医生实现更精准的临床决策。
307 2
|
2月前
|
存储 缓存 Cloud Native
EMR StarRocks Stella 内核正式发布,登顶 TPC 榜单全球第一
EMR Serverless StarRocks 重磅发布全新企业级版本内核 Stella (StarRocks Efficient and Lightening-fast Lakehouse),完全兼容开源 StarRocks,为用户提供企业级的产品功能、卓越的性能及稳定性保障。
|
30天前
|
人工智能 安全 前端开发
AgentScope Java v1.0 发布,让 Java 开发者轻松构建企业级 Agentic 应用
AgentScope 重磅发布 Java 版本,拥抱企业开发主流技术栈。
1566 28
|
Serverless BI
有奖实践,基于EMR StarRocks实现游戏玩家画像和行为分析
阿里云EMR-StarRocks联合镜舟科技,基于EMR-StarRocks实现游戏实时湖仓分析,免费试用物化视图、Paimon写入查询等新能力,前45位赢取StarRocks定制T恤、Lamy钢笔,小米充电宝,阿里云拍拍灯等活动礼品,前500位均可获得创意马克杯。
351 7
|
23天前
|
人工智能 监控 物联网
2025年优测平台:接口最大并发量测试工具与实践方法
文章聚焦2025年接口最大并发量测试,阐述其是保障系统稳定性与性能的关键,在高并发成主流背景下愈发重要。指出行业面临并发模型复杂等痛点,主流方案朝SaaS化等方向发展。介绍优测平台在接口并发测试的优势、应用场景及成功案例,还给出最佳实践与决策问答。
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
344 0
|
人工智能 监控 机器人
阿里云开发者社区博文规范及指引
阿里云开发者社区博文规范及指引
3691 27
阿里云开发者社区博文规范及指引
|
敏捷开发 Java 测试技术
从爬⾏到奔跑 - 我们为什么需要单元测试?
本文从测试体系的历史入手,讲述了从手动测试 -> 靠别人自动化测试 -> 靠自己自动化测试的历史演化进程,也尝试着从这个视角解释为什么大家过去不重视单元测试。之后我们分别讲述了什么是单元测试,业界的金字塔测试最佳实践,并且深入讲解了单元测试的种种好处。最后我们列举了常见的反面模式和误区,帮助大家快速识别规避常见的错误。
123755 62