数据集成—产品简介 | 学习笔记

简介: 快速学习数据集成—产品简介

开发者学堂课程【阿里云数据集成平台使用教程数据集成—产品简介学习笔记,与课程紧密连接,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/430/detail/5369


数据集成—产品简介


内容介绍

一、数据集成是什么

二、数据集成出现的背景

三、挑战与机遇

四、小结


一、数据集成是什么

数据集成是一站式解决异构数据存储互通消除数据孤岛的数据同步平台。


二、背景

1、在大数据时代,只有实现所有业务数据的汇聚,程序的数据才能产生价值。

在实际场景中,我们的业务数据会存放在各种数据存储中。

举例:将用户信息存储在 MYSQL 中;将用户经常访问的信息存储在缓存 Redis 中;将图片信息存储在云存储 OSS 中。

image.png

1.随着业务的发展和场景的不同,我们使用的存储是不同的,而且每种存储都有自己的存储结构。在这种情况下,要实现业务数据互通,传统的做法需要维护很多工具。

举例:将 MYSQL 数据同步到 Oracle 数据需要写个 Dump 工具;将 Oracle 数据同步的 Hadoop 需要去维护 Scope


三、挑战与机遇

1、传统方法给我们带来的挑战:

1)不易运维。你会发现我们的应用每增加一种存储类型,我们需要的工具数目将呈几何级别增长,我们每天就忙着维护这些工具了。

2)重复实现。刚才提到每种数据存储都有自身的数据结构,要实现两种数据存储互通,就需要实现数据结构的转换。

3)局限于单机。你写的这些同步脚本就只能在一台机器上执行,一台机器的能力是有限的,同时还需要人肉的调度去配置 Chrome table 脚本。

2、针对这些挑战,阿里云数据集成是如何解决的呢?

1)首先,我们将各种异构数据存储做了一层简单的抽象,异构数据存储抽象为数据源,数据采集的抽取端抽象为 Reader ,数据采集的目的端抽象为 Writer 。你将 H base 数据采集到Max computer 为例, H base 数据是抽取端,即H base reader , Max computer 是数据采集的目的端,即 Odps writer 。

2)最后,数据采集的架构就由网状的工具结构变成了以数据集成为中心的辐射结构。

image.png

3、数据采集的构架有网状结构转变为以数据集成为中心的辐射结构,这样的转变可以给我们带来什么呢?

1)首先,是一站式各种异构数据源的数据互通,数据将不再是孤岛。

2)其次,只需要在各插件内实现数据类型到数据集成框架的类型转换即可。

3)最后,数据集成本身实现了多线程分布式突破单机的瓶颈。


四、小结

只要两端的数据库性能足够好,数据集成可以将执行机器的网卡打满,数据采集的数据流向就从简单的端到端变成了从源端先到 Reader Plugin ,再到框架再到 Writer Plugin ,最后到达目的端。

目前,数据集成已经覆盖了90%的主流数据源的数据互通,从普通的关系型数据库,到开源生态存储,到阿里云的各种云存储,以及友商的云存储。

相关文章
|
弹性计算 运维 Serverless
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
229 1
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
|
9月前
|
前端开发 Java API
微服务——SpringBoot使用归纳——Spring Boot集成 Swagger2 展现在线接口文档—— Swagger 简介
第6课介绍了在Spring Boot中集成Swagger2以展示在线接口文档的方法。随着前后端分离架构的发展,API文档成为连接前端与后端开发的重要纽带。然而,代码更新频繁导致文档难以同步维护,Swagger2解决了这一问题。通过Swagger,在线API文档不仅方便了接口调用方查看和测试,还支持开发者实时测试接口数据。本文使用Swagger 2.2.2版本,讲解如何在Spring Boot项目中导入并配置Swagger2工具,从而高效管理接口文档。
324 0
|
6月前
|
缓存 安全 Java
Shiro简介及SpringBoot集成Shiro(狂神说视频简易版)
Shiro简介及SpringBoot集成Shiro(狂神说视频简易版)
554 7
|
数据采集 DataWorks 监控
DataWorks产品使用合集之数据集成并发数不支持批量修改,该怎么办
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
196 0
|
11月前
|
安全 数据安全/隐私保护
DzzOffice:太完美啦,开源免费Word、Exce、PPT,多人同时协作,最主要还有免费的网盘,将这个项目集成到你的产品里面,项目立刻拥有整套offce解决方案
嗨,大家好,我是小华同学。DzzOffice是一个免费开源的企业协同办公平台,适合中小型企业及团队使用,功能涵盖网盘、文档、表格、演示文稿等,支持企业微信和钉钉移动办公,保障数据私有部署安全。 关注我们,获取更多优质开源项目和高效工作学习方法。
1843 5
|
并行计算 关系型数据库 分布式数据库
朗坤智慧科技「LiEMS企业管理信息系统」通过PolarDB产品生态集成认证!
近日,朗坤智慧科技股份有限公司「LiEMS企业管理信息系统软件」通过PolarDB产品生态集成认证!
|
jenkins 持续交付
jenkins学习笔记之六:共享库方式集成构建工具
jenkins学习笔记之六:共享库方式集成构建工具
|
Java jenkins Shell
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
jenkins学习笔记之五:Maven、Ant、Gradl、Node构建工具集成
|
Cloud Native 关系型数据库 大数据
定川信息「川立方数治平台」通过PolarDB产品生态集成认证!
杭州定川信息技术有限公司「川立方数据治理一体化智能平台」通过PolarDB产品生态集成认证!