【下载】阿特拉斯耸耸肩,数据治理法力无边~~

简介: 【下载】阿特拉斯耸耸肩,数据治理法力无边~~

这是彭文华的第101篇原创

上周去听了爱奇艺的分享会,发现他们数据图谱用的就是Atlas。后来有朋友找我要爱奇艺数据图谱的产品,这有啥说的啊?哥们给不了你爱奇艺,但是能给你爱奇艺用的Atlas!


为啥叫Atlas?

希腊神话有个叫Atlas的大力神,因为起义失败,被罚扛着地球(一说天),后来他太累了,就让人拿着美杜莎的头,把他石化了。

因为他扛着整个地球,欧洲人发明地图的时候就借用了他的名字。所以atlas翻译过来就是“地图册”。另外,人的颈椎第一节也叫atlas,意指跟atlas一样,上面顶个球。有本书叫《阿特拉斯耸耸肩》,没准你读过。阿特拉斯抗着地球,然后又是第一节颈椎,它耸耸肩,你品,你细品。。。

扯回来啊~~广大数据厂商长期以来饱受数据治理的痛苦,也没有一个好的产品能用。于是一位英雄就出来了。Hortonworks公司发起数据治理倡议,做了一个数据治理的产品,叫啥呢?就叫数据地图吧!然后Apache Atlas(Apache数据地图)就出来了。


基本上你能想到的数据治理功能,Atlas都已经有了。引用一段Atlas的原话:

Apache Atlas为组织提供开放的元数据管理和治理功能,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家,分析师和数据治理团队提供围绕这些数据资产的协作功能。


Atlas能干啥?

Atlas超级好用啊,可以只通过配置,就能接入所有的元数据,并把数据的血统给画出来:

并且还可以通过很简单的操作,在上游进行操作后,会对下游所有表都打上相应的标签,便于做影响分析。

同时呢,Atlas还能跟Apache的数据生命周期管理组件、数据安全管理组件联合,形成一个超级强大的数据治理兄弟团,厉害吧?


至于Atlas的元数据管理功能我就不说了,那就是增删改查而已,只不过他支持动态元数据更新监控,也就是说那边表结构改了,这边就能感知出来,这也不难实现。


解剖Atlas

放个架构图镇楼~~

这是从apache atlas官网上扒下来的图。

最底层是存储引起,元数据是存在Hbase的,索引在solr里,上面是JanusGraph图数据库。现在索引也能放在ES里,上图没更新而已。

再往上一层就是Core核心层了。核心层包括三个部分:

  • 类型系统(Type System): 就是用来定义各种元数据 对象实体的。
  • 图形引擎(Graph Engine:): Atlas用图数据库保存和管理所有元数据,所以下面才会有JanusGraph存储元数据对象。
  • 采集/导出(Ingest / Export):其实就是数据采集和导出功能,把所有的元数据采集到Atlas。

再往上就是集成层,可以通过kafka或者API进行数据集成。

然后就是元数据层,Atlas提供Hive、Sqoop、Falcon、Storm、Hbase的元数据提取组件,这些是开箱即用的。Falcon也是Apache的一个数据治理组件之一,是数据生命周期管理工具,重点是对数据管道的监控。

最后是应用层:

  • 基于标签的策略:Atlas还可以与Apache 的Ranger组件集成,增强数据安全管控能力。
  • Atlas Admin UI:Atlas提供一个管理界面,用来管理各种接入的元数据。通过类似于SQL的语言,查询Atlas管理的元数据类型和对象。
  • 同时,Atlas还提供各种数据血缘、数据生命周期可视化、快速数据建模等各种应用。


咋样?还阔以吧?装上Atlas,基本上元数据管理的问题就解决了。各种数据血缘、影响分析的功能就直接搞定。这就是所谓的数据地图了。


Atlas咋用?

你可以到Apache Atlas官网去下载 点击:http://atlas.apache.org/

随便找一个版本就行了,不过要注意各个组件的版本要求,基本上问题都是这个原因导致的。



相关文章
|
开发工具 git
git,github,gitlab,码云的区别
码云https://gitee.com/enterprises?from=tg-6-7是开源中国社区推出的基于git的代码托管服务平台,基于gitlab。目前招商银行,中国科学技术大学,CSDN等多家企业和机构都在使用码云平台
622 0
|
机器学习/深度学习 人工智能 自然语言处理
从此告别PPT制作的烦恼:ChatGPT和MindShow帮你快速完成
从此告别PPT制作的烦恼:ChatGPT和MindShow帮你快速完成
|
人工智能 自然语言处理 自动驾驶
阿里云入选Gartner® AI代码助手魔力象限挑战者象限
Gartner发布业界首个AI代码助手魔力象限,全球共12家企业入围,阿里云,成为唯一进入挑战者象限的中国科技公司。对阿里云而言,此次入选代表了其通义灵码在产品功能和市场应用等方面的优秀表现。
|
存储 监控 关系型数据库
InfluxDB入门:基础概念解析
【4月更文挑战第30天】InfluxDB是开源时序数据库,擅长处理实时数据,常用于监控和分析。本文介绍了其基础概念:数据库(数据容器)、测量值(类似表)、字段(数据值)、标签(元数据)、时间戳和数据点。InfluxDB特性包括高性能写入、灵活查询(InfluxQL和Flux)、可扩展性及活跃社区支持。了解这些概念有助于更好地使用InfluxDB处理时间序列数据。
1022 1
|
存储 JavaScript 前端开发
如何使用Vue.js实现一个简单的待办事项应用
【10月更文挑战第1天】如何使用Vue.js实现一个简单的待办事项应用
323 5
|
Cloud Native Java 数据库
深入理解Micronaut依赖注入:提高应用灵活性的最佳实践
【9月更文挑战第5天】Micronaut是一个轻量级全栈业务框架,支持Java与Groovy语言,以其优秀的性能和对云原生特性的深度集成而备受关注。本文探讨Micronaut中的依赖注入机制,通过示例展示如何利用构造函数注入、字段注入及方法注入等方式提高应用灵活性。通过合理的依赖注入策略,如使用`@Qualifier`注解选择具体实现或条件化注册Bean,可构建更易扩展和维护的应用。Micronaut简化了这一过程,使开发者能专注于业务逻辑。
240 2
|
Java 开发工具 对象存储
PAI-AutoLearning 图像分类使用教程
PAI AutoLearning(简称PAI AL)自动学习支持在线标注、自动模型训练、超参优化以及模型评估。在平台上只需准备少量标注数据,设置训练时长即可得到深度优化的模型。同时自动学习PAI AL平台与EAS模型在线服务打通,一键完成模型部署。下面通过一个番茄(tomato)和黄瓜(cucumber)的图片分类示例来演示整个流程的实现具体操作实现步骤。
13371 0
PAI-AutoLearning 图像分类使用教程
|
移动开发 小程序
uniapp轮播图制作
uniapp轮播图制作
373 0
|
缓存 前端开发 JavaScript
【微前端】在造一个微前端轮子之前,你需要知道这些~(下)
【微前端】在造一个微前端轮子之前,你需要知道这些~(下)
|
人工智能 弹性计算 安全
巨人网络与阿里云达成全面合作!
巨人网络与阿里云达成全面合作!
378 0