EMR StarRocks Stella 内核正式发布,登顶 TPC 榜单全球第一

简介: EMR Serverless StarRocks 重磅发布全新企业级版本内核 Stella (StarRocks Efficient and Lightening-fast Lakehouse),完全兼容开源 StarRocks,为用户提供企业级的产品功能、卓越的性能及稳定性保障。

2025 年云栖大会,EMR Serverless StarRocks重磅发布全新企业级版本内核Stella (StarRocks Efficient and Lightening-fast Lakehouse),完全兼容开源StarRocks,为用户提供企业级的产品功能、卓越的性能及稳定性保障。


EMR Serverless StarRocks在权威TPC基准测试中创造佳绩:在“数据分析”性能测试TPC-H榜单中,阿里云EMR Serverless StarRocks (Stella 1.2.0内核)以QphH超754万分的性能结果斩获全球冠军领先第二名111%


全新企业级内核Stella在TPC-H 10TB标准测试场景下,相比上一版本性能提升超过120%,登顶TPC榜单全球第一;与此同时,在Lakehouse典型场景中,StarRocks + Paimon组合的TPC-H 1T的性能测试,相比上一个版本性能提升100%,相比Trino + Paimon实测性能提升高达12倍,Paimon DV表的模式下提升300%。充分验证了其在复杂分析查询中的极致性能与云原生架构的领先优势。同时发布了全新的全文检索引擎,较之前版本过滤性能提升100%


三大核心场景全面升级

Stella 聚焦云原生Lakehouse能力提升,在实时数仓、湖仓分析、全文检索三大核心场景上取得重大突破:

  1. 实时数仓
  • 多Warehouse(多计算组)正式发布:支持读写分离场景,已经过大规模生产环境验证
  • 内核性能大幅提升:性能较上个版本提升100%
  • 使用成本大大降低:高频导入降低50%资源消耗,存储API请求成本降低80%
  • 元数据管理效率提升:海量Tablet调度性能提升300%
  • 企业级能力:完整支持数据治理和血缘功能
  • 存储与可观测性提升:磁盘空间和稳定性全面对齐存算一体架构,可观测性大幅提升


  1. 湖仓分析
  • Paimon查询性能提升100%:在标准TPC-H场景下,查询性能较上一版本显著提升
  • Paimon DV表分析性能提升300%+:通过对DV序列化机制的大幅优化,DV表模型查询效率提升约10倍
  • 跨引擎性能领先:StarRocks+Paimon相较Trino+Paimon性能提升12倍以上
  • 无缝集成云上DLF 2.×系列:与阿里云Data Lake Formation深度集成,支持用户、权限、元数据统一管理,云上即开即用的Lakehouse架构


  1. 全文检索
  • 全新倒排索引架构和能力正式发布:重构社区版本,改进设计缺陷
  • 导入性能提升3倍+:检索引擎数据导入效率大幅提高
  • 日志分析性能提升5倍+:查询响应速度显著提升
  • 存储降本80%+:StarRocks采用的列存模式较行存模式大大提升压缩空间能力


核心能力优化

Multi-Warehouse:企业级资源隔离方案

Multi-Warehouse针对大型StarRocks集群的资源隔离难题提供了有效解决方案。随着集群规模扩大和业务场景增多,资源争抢问题逐渐凸显——导入任务过大影响查询性能、大型SQL操作阻塞其他业务查询。


Multi-Warehouse基于存算分离架构,实现了:

  • 数据共享与计算隔离:多个Warehouse共享同一存储层(如OSS),实现数据高效共用;计算资源通过硬隔离机制独立分配
  • 全面资源隔离:最新版本支持Compaction指定运行在特定Warehouse中,避免资源集中争抢
  • 弹性伸缩协同:与弹性伸缩能力结合使用,可根据业务需求动态调整计算资源规模,白天高峰扩容、夜间低峰缩容,在保障性能的同时有效控制成本

目前,在使用存算分离架构的客户中,约半数已启用Multi-Warehouse,该功能与弹性伸缩已成为企业用户广泛组合使用的两大核心功能。


Stella 内核性能提升

在TPC-H 10T基准测试中,存算分离版本的Stella相比上一版本性能提升超过120%,充分展现了云原生架构的技术优势。


重点优化:

  • 支持Index & Meta Cache 功能优先级,优先保障元数据缓存命中率,大大提升查询性能
  • 缓存自适应IO框架,更好的均衡磁盘和OSS效率,提高缓存命中率
  • 高频导入场景,优化调度算法,保障不倾斜,提升导入效率
  • 海量Tablet调度情况下,优化shared balance算法,在50+节点弹性伸缩场景下,达到秒级均衡
  • 轻量ETL场景下优化缓存空间管理框架


湖仓分析场景优化

Stella在Lakehouse场景下查询Paimon下性能的提升也非常明显:


重点优化

  • 大规模元数据场景下,实现分布式元数据解析框架,避免单点,提升查询性能。
  • 优化元数据获取性能,支持manifest cache,提升查询性能及MV刷新效率。
  • 重构Delete Vector序列化框架,大幅度提升DV查询性能。
  • DLF 2.5 深度集成,与Openlake方案无缝衔接。

通过与Data Lake Formation的深度集成,用户只需简单创建catalog即可访问DLF中的数据表,权限配置在DLF中即可自动同步至StarRocks,实现真正的即开即用。

全文检索发布

全新全文检索功能现已在存算一体与分离架构中全面支持,基于 全文倒排索引实现高效文本搜索。适用于日志分析、商品标题匹配等场景。相比旧版,查询性能提升 3-5 倍,导入更快,存储成本显著降低。全文检索功能支持主键表和明细表,用户可在建表时或建表后创建索引,使用match、match_all等语法实现多样化的文本检索需求。


全文倒排索引使用方法

建表时创建索引:

CREATE TABLE `t` (
  `k` BIGINT NOT NULL COMMENT "",
  `v` STRING COMMENT "",
  INDEX idx (v) USING GIN("parser" = "english")
) ENGINE=OLAP
DUPLICATE KEY(`k`)
DISTRIBUTED BY HASH(`k`) BUCKETS 1
PROPERTIES (
  "replicated_storage" = "false"
);


建表后创建索引:

-- Create Index After Create Table
ALTER TABLE t ADD INDEX idx (v) USING GIN( 'parser' = 'english');


全文检索查询:

-- MATCH/MATCH_ANY
select * from testdb.http_logs 
where request match "images hm_bg";
-- MATCH_ALL
select * from testdb.http_logs 
where request match_all "images hm_bg";
-- MATCH_PHRASE
select * from testdb.http_logs 
where request match_phrase "GET /images";
-- MATCH_PHRASE_PREFIX
select * from testdb.http_logs 
where request match_phrase_prefix "GET /im";
-- MATCH_PHRASE_EDGE
select * from testdb.http_logs 
where request match_phrase_edge 'et images hm';


Stella 的发布标志着 EMR Serverless StarRocks 在企业级数据分析领域迈入新的里程碑。从实时数仓到湖仓分析,从全文检索到多业务隔离,Stella 为每一个场景都带来了实实在在的性能提升和成本优化。


依托于在 TPC-H 10T 基准测试中超过 120% 的性能飞跃,以及在开放湖仓场景下提升高达 12 倍的实测查询优势,Stella 不仅验证了其技术架构的先进性,更彰显了阿里云在云原生数据处理领域的深厚积累与持续创新能力。这些成绩背后,是存算分离架构、分布式元数据管理、智能缓存调度、Delete Vector 优化等核心技术的全面突破,使得 Stella 能够从容应对超大规模数据下的复杂分析挑战。


面向未来,Stella 将继续深化在 Lakehouse 架构、实时化、智能化方向的探索,为企业构建统一、高效、低成本的数据分析底座提供更强有力的支撑。无论是金融、电商、互联网还是制造业客户,都将借助Stella 实现更快速的决策响应、更灵活的资源调度与更可观的总体拥有成本(TCO)优化。EMR Serverless StarRocks 正以开源兼容为基石,以企业级能力为核心,引领云原生数据分析的新时代。

相关文章
|
8天前
|
Serverless OLAP 定位技术
「直播预告」Streaming Lakehouse Meetup EP.2|Paimon × StarRocks 共话实时湖仓
12 月 10 日 19:00,Streaming Lakehouse Meetup · Online EP.2 |Paimon × StarRocks 共话实时湖仓重磅回归。
|
1月前
|
存储 人工智能 分布式计算
阿里云DLF 3.0:面向AI时代的智能全模态湖仓管理平台
在2025年云栖大会,阿里云发布DLF 3.0,升级为面向AI时代的智能全模态湖仓管理平台。支持结构化与非结构化数据统一管理,实现秒级实时处理、智能存储优化与细粒度安全控制,助力企业高效构建Data+AI基础设施。
605 3
|
1月前
|
人工智能 弹性计算 运维
EMR AI助手开启公测:用AI重塑大数据运维,更简单、更智能
EMR AI 助手开启公测,通过合理利用 EMR AI 助手的各项功能,可以快速查询资源信息、唤起相关操作、诊断组件异常、获取技术支持等,能帮您提升运维效率和操作体验。
|
8月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
853 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
26天前
|
SQL 分布式计算 大数据
【跨国数仓迁移最佳实践8】MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第八篇,MaxCompute Streaming Insert:大数据数据流写业务迁移的实践与突破。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
266 38
|
27天前
|
监控 安全 前端开发
如何建设网站,网站制作的6个步骤
本文围绕企业及单位网站建设展开,详解从域名注册、服务器租用、模板选取、备案,到 SEO 推广与长期维护的完整流程。强调模板等工具可降低建站门槛、缩短周期,建议优先选择源码可控、可扩展的建站平台,同时需注重备案合规、安全维护与用户体验,助力高效打造专业网站,为数字化业务拓展奠定基础。
492 8
|
16天前
|
SQL 人工智能 数据挖掘
Quick BI V6.0发布:让人人都能拥有的「超级数据分析师」到底强在哪?
阿里巴巴发布首个数据分析Agent“智能小Q”,集成问数、解读、报告生成与报表搭建能力,基于AI实现一句话获取数据洞察。Quick BI 6.0深度融合AI与BI,升级多源数据接入、自动化分析与协同办公,让企业人人拥有“超级数据分析师”。
|
DataWorks 数据挖掘 Serverless
阿里云EMR Serverless StarRocks 内容合集
阿里云 EMR StarRocks 提供存算分离架构,支持实时湖仓分析,适用于多种 OLAP 场景。结合 Paimon 与 Flink,助力企业高效处理海量数据,广泛应用于游戏、教育、生活服务等领域,显著提升数据分析效率与业务响应速度。
300 0
|
3月前
|
人工智能 运维 安全
阿里云函数计算 AgentRun 全新发布,构筑智能体时代的基础设施
云原生应用平台 Serverless 计算负责人杨皓然在云栖大会发表主题演讲“Serverless Agent 基础设施:助力大规模 Agent 部署与运维”。本议题深入介绍了阿里云以函数计算为核心打造的 Agent 基础设施——AgentRun,阐述其如何通过创新的运行时、模型服务、网关及可观测体系,为企业构筑坚实、高效、安全的 Agent 时代基石。