分库分表至 MaxCompute 实践 | 学习笔记

简介: 快速学习分库分表至 MaxCompute 实践

开发者学堂课程【全链路数据治理-全域数据集成分库分表至 MaxCompute 实践学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/1082/detail/16064


分库分表至 MaxCompute 实践


分库分表至 MaxCompute 实践

最后来为大家介绍分库分表同步至 MaxCompute 的最佳实践。

首先业务背景也是 MySQL 在分库分表的场景下,上游的表和库数量非常多,如果需要同时写入一张MaxCompute表,那同时配置多个任务则会导致配置非常复杂,且运为比较困难针对上述的点,data verse数据集成分户分表同步解决方案提供了一键同步的功能,方便业务快速简单的进行数据同步

分库分表同步至MaxCompute的同步解决方案是一种基于binglog的实时同步T加一合成并生成离线表的实时同步解决方案,实时同步数据会写入log表中,Base表每一个天分去存储全量数据,每一天运行合并任务,合并前一天的base表分区;logo表实时数据会产出新的全量分区,在查询数据时一般需要查询base表最新的分区。在配置分库分表解决方案时,可以通过库表名、正则规则等方式限定原库原表,并将符合限定条件的原库原表生成一张目标表

分表解决方案,目前已经支持以下场景,包括单库到分表,比如说分库到分表分库到部分表分库分表解决方案支持的类型,有MySQL以及PoloDB for MySQL两种数据源类型在使用限制上,这个分库分表同步至MaxCompute是需要使用data verse独享据集成资源组的。表数量上限,单数据源,原库支持的上限是50,那单数据源,原表的上限支持是5000,那单同步任务逻辑表数量上限是3000同时,我们也会有跨区的限制,同步解决方案暂时不支持跨区的数据同步,如果同步任务中同步的数据源与使用的data verse资源组不在一个时区,那会导致这个同步的数据出现错误。

接下来是实际的操作时间,准备工作新建MySQL数据源之前我们已经讲过几遍了,就不再做进一步的追述了,包括添加MaxCompute数据源

在任务配置创建完同步任务后,可以选择分分表实时同步至MaxCompute,然后可以配置我们的网络原接,在我们的数据来源中选择多个数据源作为分分表解决方案的数据源,然后点击各个数据源,可以进行收缩和展开同时,可以设置一些任务相关的名称接下来我们会进入分库分表源表的配置,比如说我们具备一些自动生成逻辑表相关的功能接下来在步骤中会有一个自动生成逻辑表的按钮,在数据源列表中,如果选择部分数据源,可以用作生成逻辑表的扫描数据源,那假设我使用两个预设规则生成逻辑表,第一个将来源表名后缀数字不同的表合成为目标表以及直接将来源表相同的表合成为目标表,在这有一些表的数据源会自动生成一些名字,那具体的规则和目标表的名称,大家可以参考这个表格。

接下来就是手动配置逻辑表的功能,刚才是自动的,那如果你这个自动的生成不符合预期结果的话,同过编辑它的匹配规则也可以实现手动配置逻辑表的能力。接下来是我们全局分库的一些规则,可以限定来源的库,这个限定条件可以被应用到下方的所有相关的同步表。下面是逻辑表的编辑规则,每一个同步表的限定条件分为库限定和表限定,全局分布规则会继承同步规则,处于不可编辑状态,如需编辑,可以在全局分布规则中编辑。在全局分布规则之上,还可以编辑某一逻辑表的库的限定条件。

接下来设置目标表,单击刷新表映射会出现这个目标表的列表,单击MaxCompute的表名,可以预览这些表结构那同时,我们在这个数据同步里支持表结构的配置,我们默认的表生命周期是30天,大家可以基于自己的需求,编辑这个表的生命周期。同时我们可以设置表力度的同步规则,支持DML的同步规则,比如说想在离线表里保留原库删除的数据,可以进行这样的一个配置。同时我们可以支持DDL的消息处理规则,当原库新增符合规律子表时,同步解决方案会自动包含这个子表,并且通过实时同步同步创建表以来所有的增量数据,删除指标也是同理。

运行资源设置大家可以参考,我们之前是添加了独享调度资源组和独享数据集成资源组来做这样一个运行,数据集成资源组就是在数据集成相关使用的资源会使用我们独享数据集成资源组,那我们刚才提到这个场景当中会有一些离线调度的能力,这个离线调度大家可以使用公共的调度资源组,也可以使用独享的调度资源组。

独享和公共的区别就是在某一些场景下,比如说高峰期的时候,公共有时候会资源紧张,就比如说你可能数据集成资源是足够的,但是这个离线的调度可能资源不够了,那这个任务可也可能会晚一些运行,所以说,如果想要保证资源和稳定性的话,可以购买两种独享资源组。

配置完成之后,就直接可以把我们这个任务提交运行了,那接下来是任务运维,任务运维可以查看任务相关的各种状态以及任务节点之间依赖的关系,因为刚才我们说了我们创建了多个不同的任务。

同时,我们可以进行这个增减这个数据源的一个操作,我们可以直接在同步解决方案当中增加或者减少同步的数据源来修改我们的这个同步任务。除了支持增减数据源,还支持增减表,大家可以在修改同步任务的时候进行添加逻辑表或者删除逻辑表。

后面有我们一些正则表达式的参考,大家如果有一些不同的规则,可以参考这个表格来进行一些正则表达式的撰写,以上就是我们这节课的所有内容。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
4月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
5月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
5月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
5月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
209 4
|
5月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
337 3
|
5月前
|
机器学习/深度学习 存储 分布式计算
ODPS驱动电商仓储革命:动态需求预测系统的落地实践
本方案基于ODPS构建“预测-仿真-决策”闭环系统,解决传统仓储中滞销积压与爆款缺货问题。通过动态特征工程、时空融合模型与库存仿真引擎,实现库存周转天数下降42%,缺货率下降65%,年损减少5000万以上,显著提升运营效率与GMV。
644 1
|
4月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
6月前
|
资源调度 安全 Java
Java 大数据在智能教育在线实验室设备管理与实验资源优化配置中的应用实践
本文探讨Java大数据技术在智能教育在线实验室设备管理与资源优化中的应用。通过统一接入异构设备、构建四层实时处理管道及安全防护双体系,显著提升设备利用率与实验效率。某“双一流”高校实践显示,设备利用率从41%升至89%,等待时间缩短78%。该方案降低管理成本,为教育数字化转型提供技术支持。
178 1
|
2月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)

热门文章

最新文章