大家好,我是独孤风。
2022年已过去一半多的时间了。这半年多,我们重点关注了LinkedIn Datahub、Atlas等元数据管理工具,了解了他们在数据治理领域的作用。
也关注了Apache Griffin等数据质量工具的使用。
但是,在数据工程领域这只是冰山一角,近期lakeFS高级工程师Einat Orr发布一份2022年的数据工程汇总图,对于数据工程领域的优秀项目进行了整理汇总。
此高清大图我已经同步到学习群中,需要此高清大图的同学可以联系我获取。
下面我们来看一下,大数据和数据治理领域有哪些值得关注的优质项目。
1、数据采集软件
这一部分主要是数据采集的实时流技术和软件服务。
值得关注的是Airbyte, Airbyte成立于 2020 年,是一个开源项目。
附上地址: https://github.com/airbytehq/airbyte
Airbyte 是一个开源 EL(T) 平台,可帮助您在数据仓库、数据湖和数据库中复制数据。
2、数据采集框架
数据采集领域越来越向高扩展性的实时流计算演变。
毫无疑问,除了商用的软件以外,Spark、Flink、Kafka、Pulsar等开源技术将继续大发异彩。
3、对象存储
对象存储不是什么新技术了,但是从来都没有被替代掉。为什么?在这个大数据发展迅速地时代,数据已经不单单是简单的文本数据了,每天有大量的图片,视频数据产生,在短视频火爆的今天,这个数量还在增加。有数据表明,当今世界产生的数据,有80%是非关系型的。那么,对于图片,视频等数据的分析可以说是大数据与人工智能的未来发展方向之一。
这一领域老牌的Ceph,SwiftStack确实有一定的市场份额,但更应该关注新兴Minio。之前我们也做过相应的实践。
大数据流动历史文章: Github 29K Star的开源对象存储方案——Minio入门宝典
4、数据湖
去年的时候,数据湖的概念越来越多的被提及。
很多的公司想通过数据湖的方式,或者湖仓一体的概念,来简化数据工程的复杂程度。
Hudi、Iceberg也成为了很多公司的选择。
目前来看Databricks的架构依然是更高性能的,目前来看他们还没有开源出更多的东西。
5、以数据为中心的机器学习
从现在看,很多东西已经非常的清晰了。
端到端 MLOps 工具,以数据为中心的机器学习方法的工具,机器学习的 可观察性和监控。
2022年deepchecks开源。
https://github.com/deepchecks/deepchecks
deepchecks用于验证 ML 模型和数据的测试套件。Deepchecks 是一个 Python 包,用于以最小的努力全面验证您的机器学习模型和数据。
6、数据治理
数据治理的道路,任重道远。
目前我们关注的重点还是Atlas和Datahub。
Atlas是老牌的Hadoop生态中的一员,对于数据血缘的支持还是足够的。
通过二次开发,Atlas可以满足大部分公司的业务需求。
而Datahub作为一颗冉冉升起的新星,更是值得持续的关注。
万字保姆级长文——Linkedin元数据管理平台Datahub离线安装指南