【下载】阿特拉斯耸耸肩,数据治理法力无边~~

简介: 【下载】阿特拉斯耸耸肩,数据治理法力无边~~

这是彭文华的第101篇原创

上周去听了爱奇艺的分享会,发现他们数据图谱用的就是Atlas。后来有朋友找我要爱奇艺数据图谱的产品,这有啥说的啊?哥们给不了你爱奇艺,但是能给你爱奇艺用的Atlas!


为啥叫Atlas?

希腊神话有个叫Atlas的大力神,因为起义失败,被罚扛着地球(一说天),后来他太累了,就让人拿着美杜莎的头,把他石化了。

因为他扛着整个地球,欧洲人发明地图的时候就借用了他的名字。所以atlas翻译过来就是“地图册”。另外,人的颈椎第一节也叫atlas,意指跟atlas一样,上面顶个球。有本书叫《阿特拉斯耸耸肩》,没准你读过。阿特拉斯抗着地球,然后又是第一节颈椎,它耸耸肩,你品,你细品。。。

扯回来啊~~广大数据厂商长期以来饱受数据治理的痛苦,也没有一个好的产品能用。于是一位英雄就出来了。Hortonworks公司发起数据治理倡议,做了一个数据治理的产品,叫啥呢?就叫数据地图吧!然后Apache Atlas(Apache数据地图)就出来了。


基本上你能想到的数据治理功能,Atlas都已经有了。引用一段Atlas的原话:

Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。


Atlas能干啥?

Atlas超级好用啊,可以只通过配置,就能接入所有的元数据,并把数据的血统给画出来:

并且还可以通过很简单的操作,在上游进行操作后,会对下游所有表都打上相应的标签,便于做影响分析。

同时呢,Atlas还能跟Apache的数据生命周期管理组件、数据安全管理组件联合,形成一个超级强大的数据治理兄弟团,厉害吧?


至于Atlas的元数据管理功能我就不说了,那就是增删改查而已,只不过他支持动态元数据更新监控,也就是说那边表结构改了,这边就能感知出来,这也不难实现。


解剖Atlas

放个架构图镇楼~~

这是从apache atlas官网上扒下来的图。

最底层是存储引起,元数据是存在Hbase的,索引在solr里,上面是JanusGraph图数据库。现在索引也能放在ES里,上图没更新而已。

再往上一层就是Core核心层了。核心层包括三个部分:

  • 类型系统(Type System): 就是用来定义各种元数据 对象实体的。
  • 图形引擎(Graph Engine:): Atlas用图数据库保存和管理所有元数据,所以下面才会有JanusGraph存储元数据对象。
  • 采集/导出(Ingest / Export):其实就是数据采集和导出功能,把所有的元数据采集到Atlas。

再往上就是集成层,可以通过kafka或者API进行数据集成。

然后就是元数据层,Atlas提供Hive、Sqoop、Falcon、Storm、Hbase的元数据提取组件,这些是开箱即用的。Falcon也是Apache的一个数据治理组件之一,是数据生命周期管理工具,重点是对数据管道的监控。

最后是应用层:

  • 基于标签的策略:Atlas还可以与Apache 的Ranger组件集成,增强数据安全管控能力。
  • Atlas Admin UI:Atlas提供一个管理界面,用来管理各种接入的元数据。通过类似于SQL的语言,查询Atlas管理的元数据类型和对象。
  • 同时,Atlas还提供各种数据血缘、数据生命周期可视化、快速数据建模等各种应用。


咋样?还阔以吧?装上Atlas,基本上元数据管理的问题就解决了。各种数据血缘、影响分析的功能就直接搞定。这就是所谓的数据地图了。


Atlas咋用?

你可以到Apache Atlas官网去下载 点击:http://atlas.apache.org/

随便找一个版本就行了,不过要注意各个组件的版本要求,基本上问题都是这个原因导致的。



相关文章
|
15天前
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
93 10
|
1月前
|
数据采集 存储 监控
CDGA|数据治理:让数据与业务伴生的实践路径
在数据驱动的时代,数据已成为企业宝贵资产,蕴含推动业务增长与创新的无限可能。数据治理通过科学策略挖掘、整合、保护数据,成为企业数字化转型的核心驱动力。本文阐述了数据治理的定义、重要性及其实践路径,强调跨部门协作与全员参与,确保数据质量、安全及合规性,支持企业战略目标实现。通过明确数据战略、建立管理体系、推动数据共享和持续优化,数据治理助力企业实现数据与业务的伴生共长。
|
5月前
|
敏捷开发 Java 持续交付
阿里云云效产品使用问题之效能洞察的源数据该如何导出
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
6月前
|
存储 数据采集 监控
数据治理包括哪些内容
数据流程与操作管理:是指对数据从采集到存储、处理及使用的全生命周期进行规范化管控,以保障数据流转和各项操作的合法性与规范性。这涵盖了数据存储的标准化管理、有效的数据处理机制、以及完备的数据备份与恢复方案等多个关键环节。
|
12月前
|
存储 供应链
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
带你读《构建企业级好数据(Dataphin智能数据建设与治理白皮书)》——8. 资产目录:主题式的目录,打造精品数据
132 0
|
数据采集 机器学习/深度学习 算法
数据治理之参考数据与主数据管理
最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。
2744 1
数据治理之参考数据与主数据管理
|
存储 数据采集 监控
数据治理利器Dataphin:数据安全管理3步走,保障全链路数据安全(V3.11版本)
瓴羊Dataphin(智能数据建设与治理),一直在探索数据安全管理能力的产品化最佳实践,即如何帮助企业利用产品工具能力,基于法律法规、主管部门要求和自身行业和业务的需要,建立起规范的分级分类制度,并对敏感数据制定相应的保护策略。企业通过Dataphin构建起合规的数据安全体系,将数据安全风险降至最低,让数据资产在安全合规的基础上,得到最大的价值释放。
792 4
|
数据采集 SQL 运维
Dataphin(数据建设与治理)V3.10版本升级速览
本次发布的V3.10版本中,Dataphin新增了ArgoDB作为计算引擎;针对客户不同的管控诉求,提供了自定义审批模版、自定义下载和权限审批策略的管控能力;优化了自定义数据源的元数据获取和创建流程;在数据集成、实时研发、数据服务中都新增了多种数据源的适配;在资产治理中,也支持了质量整改、异常数据归档、标准关联质量。
2193 2
Dataphin(数据建设与治理)V3.10版本升级速览
|
数据采集 存储 安全
数据治理:管理和保护数据的最佳实践
随着企业日益依赖数据来驱动业务决策和创新,数据治理成为一个至关重要的话题。数据治理是指规范、管理和保护数据资产的过程,以确保数据质量、合规性和安全性。在本文中,我们将探讨数据治理的重要性以及一些实施数据治理的最佳实践。
455 0
|
人工智能 安全 架构师
【数据治理】引导您制定有效数据治理计划的 7 个步骤
【数据治理】引导您制定有效数据治理计划的 7 个步骤
下一篇
无影云桌面