Dataphin V3.2 - 开源Flink的计算源及项目配置

本文涉及的产品
智能数据建设与治理Dataphin,200数据处理单元
简介: 从V3.2版本开始,Dataphin开始支持基于开源Flink的实时研发,本文将介绍如何配置开源Flink的计算源,并将该计算源绑定到Dataphin项目中,以在Dataphin中开始实时研发

一、部署架构


image.png



说明

  • Dataphin调试、执行Flink任务时,会先将Flink任务所需要的文件打包成Jar包,上传到HDFS中,然后在启动Flink run命令将Flink任务提交到Yarn服务,因此需要Hadoop集群需要有Yarn服务,且保证Dataphin应用集群可访问HDFS Namenode上传Jar包及提交任务到Yarn服务
  • Datapin提交Flink任务到Hadoop集群的采用Per-Job模式,且仅支持Yarn资源管理。在Per-Job模式下,每个提交的Job将会启动一个Flink 集群。 Job完成后,集群将关闭,所有残留的资源(例如文件)也将被清除。 此模式可以更好地隔离资源,因为行为异常的Job不会影响任何其他Job。
  • Dataphin应用集群需要与数据源进行通信以测试数据源的连通性及获取数据源的元数据,Flink任务提交到Hadoop集群后,也需要读取或写入数据到数据源,因此需要保证数据源与Dataphin应用集群和Hadoop集群的网络可达和通畅

二、Hadoop集群的配置及准备

基于Hadoop集群(Yarn为资源管理器)在Dataphin进行Flink任务的开发,不需要特殊的配置,仅需保证网络端口可达。原则上需要开放HDFS Namenode服务、Yarn的ResourceManager、Scheduler、webapp的端口。hdfs-site.xml、core-site.xml、yarn-site.xml等配置文件可从hadoop集群上(如Cloudera Manger)上下载配置文件。


以下为最小化配置文件的样例:

📎core-site.xml

📎hdfs-site.xml

📎yarn-site.xml

三、Dataphin中Flink计算源配置说明

1. Kerberos未开启时的配置说明

image.png


2. Kerberos开启时的配置说明

image.png

3. 配置信息说明


分组

配置项

配置说明

计算引擎源基本信息

计算源类型


固定为Flink

计算源名称


在租户内的标识该计算源的名称

计算源描述

可选。计算源描述信息

集群基本信息

配置文件

可上传 Hadoop集群的配置文件:core-site.xml hdfs-site.xml yarn-site.xml

集群Kerberos

可根据集群的配置选择开启或关闭kerberos配置

Flink计算引擎配置信息

Kerberos配置方式

选择配置填写KDC Server或上传kerb5文件

KDC Server

KDC服务地址

Krb5文件

可上传krb5文件

Flink的任务队列

填写yarn的队列

CheckPoint存储状态 - 目录路径

需在hdfs上创建好存放checkpoint所需要的文件夹,如hdfs://dataphin-hadoop-cluster-00001:8020/tmp/savepoint/

Flink Kerberos

若集群开启了Kerberos,则可选择开启或关闭;若集群未开启Kerberos,则需选择关闭

Keytab File

Flink对应的Keytab文件

Principal

Flink对应的Principal


四、Demo


以下视频将向您展示如何配置开源Flink的计算源,以及在项目中绑定计算源。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
目录
相关文章
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
65 0
|
2月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
75 0
|
1月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
60 9
|
2月前
|
运维 数据处理 调度
Dataphin功能Tips系列(30)-限流配置
某大型电商平台在每天的凌晨时段需要进行大量的数据处理任务,比如订单处理、库存同步、用户行为分析等。此外,平台还需要定期进行历史数据的补数据工作,以确保数据完整性和一致性。在进行补数据时,如果需要补的历史时间周期比较长,这些批处理任务会消耗大量的计算资源,导致批处理任务(如订单处理、库存同步)响应变慢甚至超时失败,这是我们应该怎么保障每天的批处理任务(订单处理、库存同步)的按时产出?
|
2月前
|
Java Shell Maven
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
125 4
|
2月前
|
消息中间件 Java Kafka
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
Flink-04 Flink Java 3分钟上手 FlinkKafkaConsumer消费Kafka数据 进行计算SingleOutputStreamOperatorDataStreamSource
52 1
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
2月前
|
消息中间件 NoSQL Kafka
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
大数据-116 - Flink DataStream Sink 原理、概念、常见Sink类型 配置与使用 附带案例1:消费Kafka写到Redis
177 0
|
Java Linux API
Flink 项目Scala模板入门
Flink大数据项目可以通过Scala语言进行构建,本文主要介绍一下如何通过Maven命令来快速生成Scala语言的Flink初始项目,并给出一个启动示例项目。
1150 0
Flink 项目Scala模板入门
|
3月前
|
运维 数据处理 数据安全/隐私保护
阿里云实时计算Flink版测评报告
该测评报告详细介绍了阿里云实时计算Flink版在用户行为分析与标签画像中的应用实践,展示了其毫秒级的数据处理能力和高效的开发流程。报告还全面评测了该服务在稳定性、性能、开发运维及安全性方面的卓越表现,并对比自建Flink集群的优势。最后,报告评估了其成本效益,强调了其灵活扩展性和高投资回报率,适合各类实时数据处理需求。

相关产品

  • 智能数据建设与治理 Dataphin