陈长城:NineData面向Doris实时数仓集成的技术实践

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 在刚刚过去的北京Doris Summit Asia 2023,玖章算术技术副总裁陈长城受邀参加并做了《NineData面向Doris实时数仓集成的技术实践》报告。

在刚刚过去的北京Doris Summit Asia 2023,玖章算术技术副总裁陈长城受邀参加并做了《NineData面向Doris实时数仓集成的技术实践》报告。


玖章算术技术副总裁陈长城


多云多源企业数据管理的挑战


从业界的报告中我们知道超过81%的企业使用了多云或混合云架构,超过70%的企业使用了多种数据类型,而对基础架构、数据架构运用娴熟的企业其创新速度远高于同行。当然多云多源也带来了很多挑战,导致基础架构管理复杂、数据孤岛、开发效率下降等挑战增加。


面向这些问题,玖章算术研发了NineData云原生智能数据管理平台,底层基于统一数据源和IaaS层抽象,对接各个云厂商和多种数据源,基于之上建立了数据复制、数据对比、SQL开发、数据备份四大功能模块,并与企业的托管数据库PaaS、搜索平台、消息队列和大数据平台形成良好的互动,帮助企业实现多云多源统一的数据管理能力。


NineData数据管理平台架构图


云原生数据复制架构


在多云多源下的数据集成,企业面临多种数据源的数据抽取、多云厂商数据互通的需求,对于多数据中心和出海企业,也必然面临跨地域长周期的数据同步的挑战。NineData认为一个云原生的数据复制架构,需要具备四个特征


(1)Scalable(可扩展性,实现多种数据源快速接入)

(2)Resilient(适配各种环境,各厂商和复杂的网络环境)

(3)Manageable(可管理性,大量环境和链路管理及一致性对比)

(4)Observable(可观测可干预)


NineData在多云方面的目标是实现AnyWhere、AnyNetwork、AnyDatabase的数据库接入和管理能力,通过统一的控制台,帮助用户管理各个地方的数据源。NineData的worker会部署到离用户最近的地方,实现数据链路在本地运行,而任务状态汇报到中心控制台的架构。worker可以通过私网VPC或公网与用户数据源打通,对于数据库不暴露公网的可以使用NineData数据库网关实现本地接入,远程复制和管理。同时NineData也支持金融企业客户的专属集群部署需求。


NineData云原生数据复制架构


在多数据源方面,NineData通过统一数据源的抽象,将数据库连接属性、账密、连接池管理、网络连接方式等统一管理起来,一个数据源注册完后,就可以使用NineData提供的所有功能,包括SQL开发、数据复制、数据对比、数据备份等。


实时数仓Doris数据集成实践


NineData在实时数仓Doris数据集成实践上, 重点围绕一致性、高吞吐、低延迟、可观测可干预这几个方面,当前NineData已经支持了60多种数据源。在数仓实时数据集成中,我们会考虑到这几个方面:


(1)DDL自适应,实现结构迁移初始化,以及后续新的增量DDL的自动同步。对于Doris,其结构和MySQL兼容性比较高,主要是对distribute key自适应和跨库CREATE TABLE LIKE的兼容,distribute key的选择NineData会自动按主键、唯一键的顺序自动填充,也允许用户下拉指定,来达到顺畅的体验。


(2)数据类型映射,包括数据类型映射(如BIGINT UNSIGNED -> LARGEINT等),字符集映射(Doris主要是utf8),以及当多个地域不同时区的生产库汇聚到Doris 时,需要做时区自适应。


(3)数据ETL转换,当使用MySQL同步到Doris时,我们希望表结构原样同步过来,其实更多的是ETL,先保障数据快速、准确、稳定的持续同步过来,再基于这些原始数据ODS之上去构建数仓的维表、物化视图等。但生产库也会有一些数据是不需要同步到数仓的,因此需要过滤掉、或者做一些简单的计算和标记再同步到数仓,这个就是EtLT。


(4)提交性能,这个是数仓集成大家普遍关注的,后面将单独介绍。


下面分别介绍几个实践中的要点:


3.1 一致性


在做实时日志CDC的时候,其实要把数据正确解析出来,需要两个部分。以MySQL为例,你需要拿到数据库的binlog日志(里面包含数据前后镜像),同时拿到MySQL产生这条日志那一刻的表结构,才能正确地拼出响应的DML语句。因此在DML/DDL混合执行的时候,正确地拿到那一刻的表结构就比较困难,而这在生产库中经常遇见。因此NineData实现了一个DDLParser,将每一条DDL日志在同步模块中模拟MySQL的DDL执行,更新同步模块中的Meta缓存,并实现了版本化存储。这样就可以获得每张表任意时刻的表结构元数据。


NineData的数据一致性


3.2 高吞吐


全量同步性能是数仓集成比较重要的地方,往往涉及到多个数据源往一个数仓同步数据,NineData的工作包括以下三个部分:


(1)在全量同步数据到Doris的过程中,由于生产库存在多张大小不一样的表,如果有很多小表和1-2张大表的情况下,就容易出现小表都同步完了,最后几张大表一直没有完成。因此我们要进行单表并发切片,并且保障切片足够均匀,才能最大化使用并发度让大家同时完成。NineData会根据表的主键、唯一键、非空索引等顺序进行切片,同时做到切片粒度的断点续传。


(2)在内存方面针对全量同步这种一过性数据场景对JVM内存进行优化。


(3)进行批量提交合并,同时针对Doris的特点,进行Stream模型的全量和增量写入,在实测中30并发能够跑到209MB/S、88W RPS的性能。


3.3 低延时


NineData从多个维度建设,以实现低延时能力。包括链路中热点更新数据合并、表级别的安全位点减少数据回退,云原生RDS备份日志自动回拉,主动运维时的优雅退出(clean shutdown)等能力,以保障运行中的链路最小受到各种情况造成的延时影响。


3.4 链路内置ETL能力


包括对象名映射(库、表、列名均支持名称映射)、数据过滤(如支持通过配置SQL Expression,使用函数计算和过滤数据示例:gmt_create>=‘2019-09-09 11:11:11)、操作类型过滤(如支持通过配置增量复制需要复制的操作类型,细粒度控制复制操作,示例:只复制Insert/Delete/Update/Create Table/Alter Table,其他操作都不需要)。


3.5 可扩展性


数仓集成涉及的数据源众多,为了方便支持扩展更多的数据源,我们对结构转换、数据转换做了中间数据类型的抽象,能够做到多源异构的快速转换,同时抽象了复制框架,基于复制框架进行插件化开发可以实现新数据源的快速接入。


NineData数据管理平台架构图


3.6 可观测可干预


(1)数据对比作为NineData重点建设的功能,对数仓集成复制的数据一致性有很好的观测能力。NineData全量对比会将计算下推以减少数据库网络消耗并提升性能,支持限流保护生产库。快速对比会对数据的行数、MAX、MIN、AVG取值以更准确判断数据一致性。


NineData数据对比功能


在结果呈现上,NineData会将每一行每个字段的不一致部分以颜色标记出来,并生成订正SQL。


NineData支持智能校验数据并生成订正SQL


(2)在传统监控告警之外,NineData做了两个有特色的功能,一个是在同步模块运行中,可以查看每个线程当前在提交什么SQL,比如遇到DDL特别慢,当前已经执行了多少时间。另一个是针对每一个正在复制的命令,如果抛错了,允许客户进行SQL语句级别的修改和重试,或跳过,快速干预和恢复链路。

NineData的可观测可干预能力


典型业务场景和技术展望


我们认为,在多云多源的背景下,随着云原生数仓的快速发展,只有云原生化的实时数据集成能够适应时代的要求,能够快速提供各个厂商、各种数据类型的快速汇聚,具备按需使用,即开即用的特性。


实时数据集成技术趋势


Metadata-Driven能够将企业多种数据源统一管理,构建统一的元数据和数据目录,让企业有个完整的数据生产资料视角也特别重要。NineData的SQL开发能够帮助企业补充这部分能力。同时,传统先建数据中台进行大数据集中,再考虑产出效果的方式无法满足企业的需要,Purpose-Driven更多受到企业用户的喜欢,让用户的数仓集成投入有明确的目标效果预估。通过提前构建联邦查询或逻辑视图,预览数仓集成后的报表效果,以及评估相关链路和存储成本,再进行投入。而且实时数据集成平台应该提供自助化的服务让用户进行尝试和决策。


随着当下AIGC能力的发展,我们相信大模型在帮助企业进行数据管理的智能辅助方面有不错的应用前景。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
目录
相关文章
|
21天前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
3月前
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
20天前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
1月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
62 1
|
2月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
2月前
|
存储 SQL 缓存
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
从 3.0 系列版本开始,Apache Doris 开始支持存算分离模式,用户可以在集群部署时选择采用存算一体模式或存算分离模式。基于云原生存算分离的架构,用户可以通过多计算集群实现查询负载间的物理隔离以及读写负载隔离,并借助对象存储或 HDFS 等低成本的共享存储系统来大幅降低存储成本。
Apache Doris 3.0 里程碑版本|存算分离架构升级、湖仓一体再进化
|
4月前
|
存储 消息中间件 运维
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
招联内部已有 40+ 个项目使用 Apache Doris ,拥有超百台集群节点,个别集群峰值 QPS 可达 10w+ 。通过应用 Doris ,招联金融在多场景中均有显著的收益,比如标签关联计算效率相较之前有 6 倍的提升,同等规模数据存储成本节省超 2/3,真正实现了降本提效。
招联金融基于 Apache Doris 数仓升级:单集群 QPS 超 10w,存储成本降低 70%
|
2月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
221 0
|
3月前
|
机器学习/深度学习 DataWorks 数据挖掘
基于阿里云Hologres和DataWorks数据集成的方案
基于阿里云Hologres和DataWorks数据集成的方案
77 7
|
3月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
95 2

相关产品

  • 云原生数据仓库AnalyticDB MySQL版