Amundsen在REA Group公司的应用实践

简介: Amundsen在REA Group公司的应用实践

REA Group是一家专门面向房地产与实业资产的跨国数字广告公司。

他们主要为消费者提供房地产购买、出售与租赁服务,同时发布各类房产新闻、装修技巧以及生活方式层面的内容。每一天,都有数百万消费者访问REA Group网站。

微信图片_20220528151622.png

REA Group每天都需要进行大量的数据分析工作,去分析用户,财务等信息,该公司也掌握了大量的数据。

但是要使用数据,就必须先找到数据所在。在数据工作中面临做多的问题是:这些数据是否存在?我该如何访问?数据存在哪?最后更新时间是什么时候?

实际上,数据科学家和分析人员将大约20%的时间仅用于查找所需的数据,这占用了他们大量的时间和精力。

微信图片_20220528151625.png

很多公司都存在类似的问题,也有很多数据治理的解决方案,但是没有一个完美的解决方案。在评估了多种方案以后,REA Group公司最终选择了Lyft的开源元数据引擎Amundsen。本文将介绍其应用实现过程,以及如何进行了定制化的改造。


为什么选择Amundsen


选择合适的解决方案最重要的是充分了解自己的需求,选择最合适自己的。

每一种方案擅长的领域不同,而此次需要的重点是帮助使用者搜索数据,获取有关该数据的基本信息,以及知道该问谁寻找更多的信息。

所以选择Amundsen是基于以下因素:

  • 适合 想要的大多数功能,包括与BigQuery和Airflow的集成,都已经在Amundsen中提供。在搜索结果中设置优先级,以查看最常用的表也是可以使用的功能。还需要用户可以查看所有表的元数据。这些都是Amundsen开箱即用的功能。
  • 自动化 Amundsen专注于显示自动生成的元数据。这样可以节约大量的人力去手工维护。
  • 易于使用 Amundsen具有清晰,直观,快速的UI。
  • 开源 开源的优势不仅仅是免费,而且可以灵活的进行定制化研发,而且Amundsen的社区非常活跃,正处于上升期。

但是,在选择Amundsen时,也有很多问题没有解决。

例如,Amundsen当前缺少数据血缘功能,无法显示数据的来龙去脉。

所以必须确定好,如果进行定制化研发,是否有足够的人员可以跟进,这将是额外的开销。


如何实施Amundsen


Amundsen有三个主要的微服务:Frontend服务,Search服务(依赖Elasticsearch)和Metadata服务(依赖Neo4j或者Atlas)

在REA Group,Google BigQuery是其主数据库。技术堆栈主要基于Amazon Web Services(AWS)。

因此,我们针对Amundsen的整个解决方案都部署在AWS中。

微信图片_20220528151629.png

所有三个Amundsen微服务都作为容器部署在Amazon Elastic Container Service(ECS)上,Neo4j数据库存储所有元数据,前端通过元数据服务进行查询。

部署好Amundsen的相关服务以后,下一步的难题就是从BigQuery获取元数据,这里使用了Amundsen数据生成器库,Extractor从BigQuery提取元数据并将其引入Neo4j,而Indexer将Neo4j的元数据索引到Elasticsearch中。

微信图片_20220528151632.png

定制化研发了Amundsen表详细信息页面

微信图片_20220528151635.png

高级搜索页面

微信图片_20220528151638.png


未来


在2020年11月发布的Beta版以后,REA Group得到非常好的使用反馈。

但也有很多的问题,比如表描述的缺失,所以必须鼓励数据发布者填写这些描述。随着不断的迭代,REA Group也会为开源社区做出进一步的贡献。包括如何将Amundsen用作其他数据治理工作的补充,例如隐私和数据质量。

随着越来越多的公司意识到元数据的重要性,Amundsen由于其功能,易用性和开源性也会成为最优选择~


相关文章
|
3月前
|
自然语言处理 搜索推荐 程序员
因为看不惯Notepad++,国内大佬开源了Notepad--:技术分享与工作学习中的新选择
【8月更文挑战第20天】在编程界,文本编辑器是每一位开发者日常工作中不可或缺的工具。Notepad++,这款曾经风靡一时的文本编辑器,以其强大的功能和简洁的界面赢得了众多程序员的喜爱。然而,近年来,由于其作者的一些不当言论和行为,引发了广泛争议,许多程序员开始寻找替代品。在这样的背景下,国内一位大佬挺身而出,开源了Notepad--,为开发者们带来了一个新的选择。
333 1
|
6月前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI产品使用合集之机器学习PAI可以通过再建一个done分区或者使用instance.status来进行部署吗
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
机器学习/深度学习 SQL 人工智能
ID-Mapping在心动公司探索实践
文 / 蔡圣哲 王沛 戴健 范建文 王兵鹏
ID-Mapping在心动公司探索实践
|
存储 运维 分布式计算
Doris 毕业成为 Apache 顶级项目,独家专访百度 PALO 团队
Doris 毕业成为 Apache 顶级项目,独家专访百度 PALO 团队
801 0
Doris 毕业成为 Apache 顶级项目,独家专访百度 PALO 团队
|
SQL Kubernetes 数据可视化
Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目
Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目
Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目
|
Cloud Native 安全 Java
阿里四年技术 TL 的得失总结:如何做好技术 Team Leader
子曰:吾日三省吾身,反思是人类进化出来的一项异常宝贵的能力。我在阿里带团队也有四年多的时间,有必要总结一下此间得失;另外,前几天和一个刚开始带团队的同学聊天,他觉得角色转变对于他有不小的挑战,因此我想做一点不算成熟的总结并分享出来。
阿里四年技术 TL 的得失总结:如何做好技术 Team Leader
|
存储 消息中间件 运维
GTS-SRE周刊 || 5月集强势发布
阿里云智能全球技术服务部(GTS)-SRE团队于2019年正式成立,由原专有云、公共云的TAM团队及集团高可用基础技术团队融合而成,是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队,也是阿里集团高可用基础技术核心缔造团队。
3124 0
GTS-SRE周刊 || 5月集强势发布
|
Oracle 搜索推荐 关系型数据库
为什么企业应该参与PG社区建设?
为什么企业应该参与PG社区建设? 全球最大搜索引擎google, 全球最热开发者问答社区显示, 过去5年PG处于上升趋势, 招聘JOB人数最多. 相比而言oracle以及被oracle收购的mysql都处于下降趋势.
2146 0
IT咨询顾问:group by与join引发的项目救火
我又一次进行了项目救火,这次的原因是group by与join胡乱的堆彻导致的整个业务系统审核流程发生严重的错误。基础的sql表关联,group by,子表都理不清,我也只能对你面带微笑,不想对你解析原因,你就按照我提供给你的模板改你全部的业务sql层(XML文件的sql)吧。
1543 0
下一篇
无影云桌面