数据中台:为什么会出现数据孤岛和应用孤岛

简介: 数据中台:为什么会出现数据孤岛和应用孤岛

此时,企业已经进入了数据管理的高级阶段,需要全局的数据治理、数据能力的复用和共享以及云原生架构的支撑。在这个阶段需要解决的一个重要问题是如何避免数据孤岛和应用孤岛。


应用场景:为什么会出现数据孤岛和应用孤岛


部门A为了解决一些大数据问题,采购了厂商X的大数据解决方案,安装了一个大数据平台,导入自己的数据并开发了一些大数据应用,运行得挺不错。这个时候,部门B也需要解决一些大数据问题,于是试图采购厂商Y提供的大数据解决方案,但Y的大数据平台和X的有一些版本、组件上的差异,所以需要对X的大数据平台进行改造。问题是,这个任务由谁来完成,由谁负责改造后的大数据平台的运维?有可能厂商Y的大数据应用也需要做些改造,这可行吗?部门A的应用已经运行得很好了,部门B的应用会不会对部门A的应用造成影响(包括性能和数据安全的影响)?如果影响了,谁来负责?比较简单且快速见效的方法是直接安装厂商Y提供的端到端的解决方案。照此下去,每个解决方案都会安装一个新的大数据系统。还有一个问题是,厂商X和厂商Y底层的数据结构可能不是对外公开的,因而它们各自解决自己的问题,虽然开始互不干扰,但是后来就造成了数据孤岛和烟囱。这个时候,由于各个子系统的数据标准不一、数据格式不同,各部门之间数据无法互联互通,很难根据数据做出全局决策。


解决上面的问题,正是数据中台方法论和架构的任务。TotalPlatform保证所有数据应用的统一管理,OneIDOneModel确保各子系统中数据的互联互通,OneService负责数据能力的共享,TotalInsight确保全局数据运营的高效和价值量化。


4.3.1 全局的数据治理

必须有全局的数据治理系统来管理所有子系统的数据,确保它们能互联互通。例如,OneID要求所有关于用户的数据都必须使用同一个IDOneModel要求所有数据仓库的模型都必须符合同样的标准。


但是这里要指出,解决数据孤岛和应用孤岛的问题,除了技术方案以外,明确责权利也很重要。出现孤岛的原因之一就是各部门的责权利不明晰。如何在使用数据中台解决孤岛问题的同时保证责权利的明晰,是一个非常重要的问题,我们将在第6章中详细描述。


4.3.2 数据能力的复用和共享

在进行全局的数据治理的同时,治理的结果必须能为公司创造价值。这个时候就类似于OneService的功能,既要求能进行全局的数据能力的复用和共享,也需要类似TotalInsight的功能,管理全局的数据资产,量化数据能力的投入产出。主要的工作如下:

l  建立数据能力共享的责权利机制;

l  提供全局的数据能力目录和访问机制;

l  提供数据能力共享的工具、机制和流程;

l  对共享的数据能力的管控和审计;

l  确保共享的数据能力的高效运行。


4.3.3 云原生架构的支撑

在这个阶段随着业务的不断增长,越来越多的应用程序被添加到大数据系统中。先有SparkKafka,后有FlinkTensorFlow,现在又有各种新的大数据和人工智能组件。


这些就是在云基础架构上运行大数据系统的根本原因。而云平台为分析工作负载和一般工作负载提供了极大支持,并提供了云计算技术的所有好处:易于配置和部署、弹性扩展、资源隔离、高资源利用率、高弹性、自动恢复。


在云计算环境中运行大数据系统的另一个原因是大数据工具的发展。传统的分布式系统(如MySQL集群、HadoopMongoDB集群)倾向于处理自己的资源管理和分布式协调,但是现在由于KubernetesMesosYARN等分布式资源管理器和调度程序的出现,越来越多的分布式系统(如Spark)将依赖底层分布式框架来提供这些资源分配和程序协调调度的分布式操作原语。在这样的统一框架(见图4-5)中运行它们将大大降低复杂性并提高运行效率。


image.png


8章将详细介绍云原生架构如何帮助我们简化数据中台的运营与管理以及真正实现TotalPlatform


4.4DataOps

大部分企业的数据平台建设已经进行到第一阶段或第二阶段,而要顺利过渡到第三阶段,则离不开一个关键方法论—DataOps(数据运维)的帮助。

DataOpsDevOps十分形似,也有着与DevOps类似的软件开发角色,它是数据工程师简化数据使用、实现以数据驱动企业的方法,也是企业顺利实现第三阶段的关键。因此,本节将介绍DataOps的概念,解释为什么它对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。


4.4.1 什么是DataOps

维基百科对DataOps的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。


2018Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps的概念被首次提出(图4-6)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与DevOps的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

 

以上内容摘自《云原生数据中台:架构、方法论与实践》,经出版方授权发布。

相关实践学习
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
相关文章
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
4507 2
|
9月前
|
SQL 存储 OLAP
数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?
传统交易型数据库在分析计算中常遇性能瓶颈,将数据迁至OLAP数据仓库虽可缓解,但成本高、架构复杂。SPL通过轻量级列存文件存储历史数据,提供强大计算能力,大幅简化架构并提升性能。它优化了列式存储、数据压缩与多线程并行处理,在常规及复杂计算场景中均表现优异,甚至单机性能超越集群。实际案例中,SPL在250亿行数据的时空碰撞问题上,仅用6分钟完成ClickHouse集群30分钟的任务。
数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
10月前
|
存储 人工智能 测试技术
Nacos托管LangChain应用Prompts和配置,助力你的AI助手快速进化
AI 应用开发中,总有一些让人头疼的问题:敏感信息(比如 API-KEY)怎么安全存储?模型参数需要频繁调整怎么办?Prompt 模板改来改去,每次都得重启服务,太麻烦了!别急,今天我们就来聊聊如何用 Nacos 解决这些问题。
|
存储 数据采集 人工智能
AllData数据中台架构全览:数据时代的智慧中枢
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AllData数据中台架构全览:数据时代的智慧中枢
|
SQL 运维 Oracle
【迁移秘籍揭晓】ADB如何助你一臂之力,轻松玩转Oracle至ADB的数据大转移?
【8月更文挑战第27天】ADB(Autonomous Database)是由甲骨文公司推出的自动化的数据库服务,它极大简化了数据库的运维工作。在从传统Oracle数据库升级至ADB的过程中,数据迁移至关重要。
319 0
|
11月前
|
存储 SQL 监控
【亲测有用】数据中台数据服务管理能力演示
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
11月前
|
存储 消息中间件 NoSQL
【亲测有用】数据中台数据模型管理能力演示
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮

热门文章

最新文章