Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: Apache DolphinScheduler 毕业成为 Apache 首个由国人主导的大数据工作流调度领域顶级项目

全球最大的开源软件基金会 Apache 软件基金会(以下简称 Apache)于北京时间 2021 年 4 月 9 日在官方渠道宣布 Apache DolphinScheduler 毕业成为 Apache 顶级项目这是首个由国人主导并贡献到 Apache 的大数据工作流调度领域的顶级项目

DolphinScheduler™ 已经是联通、IDG、IBM、京东物流、联想、新东方、诺基亚、360、顺丰和腾讯等 400+ 公司在使用的分布式可视化大数据工作流调度系统。

DolphinScheduler 于 2019 年 8 月 29 日由易观捐赠给 Apache 并启动孵化。之后在导师的指导下,由孵化器管理委员会成员进行辅导和孵化,在 2021 年 2 月 19 日在 Apache 孵化器以 8 票支持一次性通过毕业提案投票。3 月 18 日,Apache 董事会通过  DolphinScheduler 毕业决议,结束了为期 18 个月的孵化,正式确定 DolphinScheduler 成为 Apache 顶级项目。

2021 年 4 月 9 日由 Apache 市场副总裁 Sally Khudairi 在 Apache 软件基金会各渠道官号上发布官方通告。


关于 Apache DolphinScheduler

Apache DolphinScheduler 是一个分布式易扩展的带有强大可视化 DAG 界面的新一代工作流调度平台,自 17 年在立项之初就确定了使命 - “解决大数据任务之间错综复杂的依赖关系,使整个数据处理过程直观可见”,从此配置工作流程再也不需要写代码啦!yy.png

DolphinScheduler 架构

作为强大的带有有向无环图(DAG)可视化界面的分布式大数据工作流调度平台,Dolphin Scheduler 解决了复杂的任务依赖关系和简化了数据任务编排的工作。它以开箱即用的、易于扩展的方式将众多大数据生态组件连接到可处理 100,000 级别的数据任务调度系统中来。

Apache DolphinScheduler 是全球顶尖架构师与社区认可的数据调度平台,把复杂性留给自己,易用性留给用户,整体有如下特征:

  • 云原生设计:支持多云、多数据中心的跨端调度,同时也支持K8s Docker部署与扩展,性能上可以线性增长,在用户测试情况下最高已经支持10万的并行任务控制;
  • 高可用:去中心化的多Master/Worker的架构,可以自动任务平衡,自动高可用,确保任务在任何节点死机的情况下可以具有完整性完成整体调度;
  • 用户友好的界面:可视化的DAG图,包括子任务,条件调度、脚本管理、多租户等方便功能,并具有让运行任务实例与任务模板分开,让你的平台维护人员和数据科学家都有一个方便易用的开发和管理平台;
  • 支持多种数据场景:支持流数据处理,批数据处理,暂停、回复、多租户等,对于spark,hive,MR,flink,clickhouse等等平台都可以方便直接调用。

DolphinScheduler 在短短 1 年半孵化时间里就能收获如此多用户和其一直倡导的 Slogan 是分不开的:

yy.png

是的,调用用的对,半夜真能安心睡!最终 Apache Dolphin Scheduler 获得大量用户,例如中国联通、IBM中国,京东物流,联想,新东方,顺丰快递等等,400 多个用户都在线上使用:

yy.png

DolphinScheduler 在设计之初就秉承着大道至简、产品易用易维护的核心理念,以高可用、易扩展作为架构底座,经过诸多打磨,获得了用户群体的肯定,然后才在 2019年 3 月正式对外开源,8 月 29 日成功进入到 Apache 孵化器,成为国内首个 Apache 大数据调度项目,多次登陆 github 月度趋势榜并引起 Hacker News 上的热烈讨论。在 2020 年, DolphinScheduler 也获得了诸多赞誉,InfoQ 中国技术力量年度榜单评其为 “十大开源新锐项目” 和 “最具人气开源新锐项目”,荣获开源中国年度 “最佳技术团队” 等称号。DolphinScheduler社区已经有庞大的 4000+ 人的用户群,据不完全统计,截止 2020 年 10 月,已经有 400+ 家公司将 DolphinScheduler 用在生产环境,DolphinScheduler 在各个领域上持续发光发热!


DolphinScheduler 发展历程

在 Apache 孵化过程中,学习并实践 Apache Way, 真正体会到了 Apache 文化的精髓 “Comuunity Over Code”,社区基于代码,却又大于代码,需要在代码之上去思考如何协作、如何沟通,如何让 Community 健康持续的向前发展。正是这不断的思考,使得 DolphinScheduler 在结束孵化投票上没有遇到任何 challenge,可以说是出乎意料的顺利。

毕业成为顶级项目见证了过去一年半以来来自 Apache DolphinScheduler 社区众多贡献者和用户的日日夜夜的努力,自从进入 Apache 孵化器以来,DolphinScheduler 社区共加入了 14 位 Commiter、2 位 PMC,也在社区的共同努力下发布了 8 个 Apache Releases,感谢给予辛勤支持和无数帮助的各位导师、贡献者、用户和及 Apache 孵化器的支持。

成为顶级项目,只是 Apache DolphinScheduler 新的起点,还有更多的挑战等待着各位社区的小伙伴和用户多多的支持,我们希望未来可以让中国优秀的开源项目走向世界,让世界都了解国内也有顶尖的开源项目,最后也感谢各位大咖对于 Apache DolphinScheduler 项目的帮助和祝福。我们也在此拜谢各位,也希望各位一如既往的支持 Apache DolphinScheduler 项目走向全球!


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
消息中间件 分布式计算 大数据
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
大数据-166 Apache Kylin Cube 流式构建 整体流程详细记录
57 5
|
1月前
|
存储 SQL 分布式计算
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图
52 3
|
3天前
|
消息中间件 监控 数据可视化
Apache Airflow 开源最顶级的分布式工作流平台
Apache Airflow 是一个用于创作、调度和监控工作流的平台,通过将工作流定义为代码,实现更好的可维护性和协作性。Airflow 使用有向无环图(DAG)定义任务,支持动态生成、扩展和优雅的管道设计。其丰富的命令行工具和用户界面使得任务管理和监控更加便捷。适用于静态和缓慢变化的工作流,常用于数据处理。
Apache Airflow 开源最顶级的分布式工作流平台
|
1月前
|
Java 大数据 数据库连接
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
27 2
大数据-163 Apache Kylin 全量增量Cube的构建 手动触发合并 JDBC 操作 Scala
|
1月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
22 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
21天前
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
32 1
|
1月前
|
SQL 分布式计算 大数据
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
大数据-160 Apache Kylin 构建Cube 按照日期构建Cube 详细记录
36 2
|
1月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
30 1
|
1月前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
45 1
|
1月前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
72 1

推荐镜像

更多
下一篇
无影云桌面