开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocksManager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划。


摘要:本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocks Manager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:


  1. StarRocks 产品介绍
  2. StarRocks 功能介绍
  3. StarRocks 场景案例
  4. StarRocks 未来规划


点击查看直播回放


一、StarRocks 产品介绍

阿里云与 StarRocks 社区从2022年初开始以半托管的形态合作。现有大概200客户已经在用半托管的 StarRocks 产品。今年开始做全托管的产品形态,希望帮助大家更进一步降低管理、使用门槛,也配合社区将产品推向更多的 OLAP 用户。

1.png                                    

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一个全托管服务,结合 StarRocks 自身极速和统一的特性,重点围绕降低门槛和降低运维复杂度这两个目标,为客户提供了更多的能力。


易用性方面,在 Serverless 的形态下,提供了全托管、免运维的服务,大家不用再去担心 StarRocks 集群的稳定性,比如日常使用中宕机等问题。在数据管理方面,提供了易用的慢 SQL 分析和集群健康诊断,便捷的导入任务管理,以及可视化的元数据管理。


结合阿里云上的一些产品,集成了云原生的能力。首先是集成了底层资源,结合K8S,实现了即开即用,仅需三四分钟,即可完成一个集群的快速创建。并且提供了后续高效扩缩容、升降配的能力,实现了资源的快速交付。另外,与 DLF 深度集成,实现了整个云上数据湖体系的打通。与 Flink VVP 深度集成,进一步降低开发成本。

image.png

上图展示了 EMR 产品体系。本次介绍重点在 OLAP 部分。StarRocks 是 EMR 推出的第一个全托管形态,接下来还会有 Serverless Doris,以及 Presto 等更多的全托管形态,帮助用户低门槛地去使用大数据的技术栈。

image.png

利用 StarRocks 我们可以构建极速统一的新一代数据架构,在分析层可以通过 StarRocks 统一 OLAP 引擎,覆盖所有 OLAP 场景,这样可以技术栈统一,一份技术及运维,多种 OLAP 分析场景都可以适用。

image.png

StarRocks 系统架构如上图所示,整个系统的核心就是 FE(Frontend)和BE(Backend)。

image.png

EMR 全托管主要是围绕K8S的布署形态,半托管主要是围绕 ECS 的布署形态。半托管,主要提供快速部署的能力,包括监控、告警等基础集群管理能力。全托管更上一层,对于FE、BE自身的服务管理也去托管,这样用户就可以不用关心计算资源这一层的运维和管理。更进一步,期望将平台运维能力,包括扩缩容、集群监控告警等,都进行全托管,从而帮助用户省去更多的运维成本。全托管提供的能力一方面是全方位的服务免运维,另一方面是自动升级的能力。还有一些 Manager 的能力,更好地管理数据,包括导入任务、元数据、权限等。


二、StarRocks 功能介绍

实例管理

image.png

实例管理,主要是快速解决集群在全托管形态下的部署能力和监控能力,是最基础的能力。并且可以更好地实现自动化升级。另外,提供了可视化配置的能力,以及一些监控和告警规则的模板。


诊断与分析

image.png

在日常数据查询或数据应用的过程中经常会碰到 SQL 慢的问题,需要分析其原因,并找到相应的解决方案。EMR StarRocks Manager 提供了可视化的 SQL 诊断分析能力,可以帮助用户快速找到根因。


元数据管理

image.png

目前元数据管理只提供了一个比较基本的能力,即展示了表的内容。后续会实现更多更细粒度的功能,比如关于导入任务的、关于物化视图的、关于外表管理的能力等等。


安全中心

image.png

当前在 Serverless 版本里提供了一个基础的用户基本管理以及库级别的权限控制。因为3.0要做一个社区的权限重构,所以计划会在3.0发布之后去做一个更细粒度的权限控制。


版本功能说明

以下表格中列出了 EMR StarRocks 不同版本功能的差别。


内核层面基本上是保持一致的。个别功能,比如数据湖查询的一些场景下,在迭代节奏上,因为与阿里云内部产品适配会更快一些,所以阿里云的版本推出得更快一些,但最终也都会贡献到社区。Flink VVP CTAS 这种场景,因为跟Flink之间是一个特殊定制的版本,所以无法贡献到社区。


实例运维管理方面,全托管版本提供的可视化、免运维能力范围会更广一些。前文介绍的 Manager 的一些能力,比如可视化数据库/表管理、慢 SQL 分析等,目前也只能在 Serverless 的版本里用到。

image.png

image.png

三、StarRocks 场景案例

image.png

image.png



四、StarRocks 未来规划

image.png

EMR Serverless 版本从今年一月份开始邀测,当时只具备了一些基本能力。从4月10号开始公测之后发布了更多的能力。


Q2的计划,一个是商业化发布,另一个是围绕 DLF 湖仓分析的场景,去做更多的增强,因为在湖仓分析对计算资源的要求更加灵活,所以需要按量付费以及弹性的一些能力。另外,会去提供实例的健康检查,帮助大家快速定位到集群有问题的地方。围绕 Manager,实现物化视图的管理能力,虽然目前物化视图的使用还不多,但随着3.0的发布,存算分离架构发布之后,物化视图会使用得越来越多。还有数据导入管理,以及 SQL Editor 等等。


Q3,在3.0存算分离发布之后,期望能够围绕 Iceberg、Hudi 等湖格式直接应用整个大数据场景,可以使用物化视图以及湖格式的一些能力,两者结合,去快速实现 LakeHouse 的场景。另外,还有重构权限模型,以及 MaxCompute 集成等。


Q4,会在实例的备份和恢复,以及实例迁移方面,增强易用性和产品化。并继续对已有功能做更深层的优化和迭代。


以上就是今年的一个整体规划,当然还会结合客户具体场景需求去做调整。



我们会在钉钉群定期推送精彩文章,邀请技术大牛直播分享
欢迎
钉钉扫码加入产品交流群一起参与讨论~

image.png





相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
18天前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
50 7
|
25天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年12月】
大数据& AI 产品技术月刊【2024年12月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
22天前
|
数据采集 机器学习/深度学习 DataWorks
DataWorks产品评测:大数据开发治理的深度体验
DataWorks产品评测:大数据开发治理的深度体验
92 1
|
6月前
|
JavaScript Serverless 数据安全/隐私保护
函数计算产品使用问题之怎么动态设置.npmrc文件以配置私有仓库访问
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
zdl
|
3月前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
195 56
|
2月前
|
数据采集 分布式计算 大数据
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame是阿里云自研的分布式计算框架,专为Python开发者设计。它支持Python接口,充分利用MaxCompute的大数据资源,提升大规模数据分析效率。本文分享了MaxFrame在分布式Pandas处理和大语言模型数据预处理中的最佳实践,展示了其在数据清洗、特征工程等方面的强大能力,并提出了改进建议。
71 13
|
2月前
|
机器学习/深度学习 分布式计算 数据处理
MaxCompute MaxFrame 产品评测报告
MaxCompute MaxFrame 产品评测报告
45 4
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks产品测评|基于DataWorks和MaxCompute产品组合实现用户画像分析
本文介绍了如何使用DataWorks和MaxCompute产品组合实现用户画像分析。首先,通过阿里云官网开通DataWorks服务并创建资源组,接着创建MaxCompute项目和数据源。随后,利用DataWorks的数据集成和数据开发模块,将业务数据同步至MaxCompute,并通过ODPS SQL完成用户画像的数据加工,最终将结果写入`ads_user_info_1d`表。文章详细记录了每一步的操作过程,包括任务开发、运行、运维操作和资源释放,帮助读者顺利完成用户画像分析。此外,还指出了文档中的一些不一致之处,并提供了相应的解决方法。
|
2月前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2024年11月】
大数据& AI 产品技术月刊【2024年11月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
2月前
|
分布式计算 DataWorks 搜索推荐
DataWorks产品评测:大数据开发治理平台的最佳实践与体验
DataWorks是阿里云推出的一款大数据开发治理平台,集成了多种大数据引擎,支持数据集成、开发、分析和任务调度。本文通过用户画像分析的最佳实践,评测了DataWorks的功能和使用体验,并提出了优化建议。通过实践,DataWorks在数据整合、清洗及可视化方面表现出色,适合企业高效管理和分析数据。
126 0

相关产品

  • 开源大数据平台 E-MapReduce