数据科学与数据治理项目全纪录

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 数据科学与数据治理项目全纪录

大家好,我是独孤风。

2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。

也关注了Apache Griffin等数据质量工具的使用。

但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。

此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。

下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。


1、数据采集软件

这一部分主要是数据采集的实时流技术和软件服务。

值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。

附上地址: https://github.com/airbytehq/airbyte

Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。

2、数据采集框架

数据采集领域越来越向高扩展性的实时流计算演变。

毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。


3、对象存储

对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。

这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。

大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典


4、数据湖

去年的时候,数据湖的概念越来越多的被提及。

很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。

Hudi、Iceberg也成为了很多公司的选择。

目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。


5、以数据为中心的机器学习

从现在看,很多东西已经非常的清晰了。

端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。

2022年deepchecks开源。

https://github.com/deepchecks/deepchecks

deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。


6、数据治理

数据治理的道路,任重道远。

目前我们关注的重点还是Atlas和Datahub。

Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。

通过二次开发,Atlas可以满足大部分公司的业务需求。

而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。

数据治理之元数据管理的利器——Atlas入门宝典

一站式元数据治理平台——Datahub入门宝典

万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南


相关文章
|
18天前
|
人工智能 分布式计算 大数据
MaxFrame 在公司/工作/学习中的应用场景与价值
MaxFrame 在公司/工作/学习中的应用场景与价值
|
2月前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
160 2
|
数据采集 存储 数据管理
数据治理是什么?该如何入门呢?
数据治理是什么?该如何入门呢?
170 0
|
8月前
|
人工智能 安全 数据管理
《数据治理简易速速上手小册》第10章 未来数据治理的趋势与挑战(2024 最新版)
《数据治理简易速速上手小册》第10章 未来数据治理的趋势与挑战(2024 最新版)
122 0
|
SQL 数据采集 运维
袋鼠云数栈 DataOps 数据生产力实践,实现数据流程的自动化和规范化
袋鼠云数栈在7年多的研发历程中为上千家客户提供了数据生产效率提升解决方案,也在这个过程中不断地将 DataOps 的理念融合到产品中,助力越来越多的企业成功实现数字化转型升级。本文将就数栈基于 DataOps 的敏捷、高质量数据生产力实践进行分享,希望对大家有所帮助。
431 0
|
运维 监控 BI
企业综合运维监控项目经典案例
对服务器、网络设备等IT设施提供全面的故障和性能管理,通过设置相应的性能阀值和告警通知方式,当设备发生异常时能及时通过邮件和短信通知到管理员,减少故障修复时间
466 0
企业综合运维监控项目经典案例
|
数据采集 供应链 监控
谈谈构建成功的数据治理团队的四个步骤
成功的数据治理需要与明确定义的业务需求保持一致。然而,太多的数据治理程序未能实现目标,因为它们忽略了这一先决条件。
|
存储 传感器 消息中间件
【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践
获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:https://www.aliyun.com/product/bigdata/spark
【实践案例】Databricks 数据洞察在美的暖通与楼宇的应用实践
|
前端开发 数据可视化 定位技术
数据可视化之下发图实践
随着互联网的快速发展,数据维度越来越广,呈现形式也越发丰富,具有多维度数据特点的相关业务实践都能通过可视化图表来展示,比如个推的下发图,从时间和区域两个维度,可以即时、直观地展现个推数据下发的过程。
1647 0
|
存储 数据可视化 大数据

热门文章

最新文章