Flink问题之启动找不到如何解决

简介: Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。

问题一:Pyflink dataset没有支持相关map reduce函数怎么办?


你好,       最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,没有相关map reduce函数,所以有以下疑问:

1.Python flink的SDK还没支持dataset吗? 2.是不是有其他替代方法? 3.如果还没支持,有计划支持的时间吗? 4.flink table为啥不支持map reduce操作? 5.我们项目使用dataframe来处理数据,能放到flink上做分布式运算吗?dataframe直接转化为table的方式,table不支持map reduce操作,对应pandas项目改造成flink,有什么好的建议么?

非常感谢,十分看好flink,希望社区越做越大,辛苦了!*来自志愿者整理的flink邮件归档


参考回答:

Hi, 有几个疑问: 1)你说的map reduce函数具体指的什么?可以举一个例子吗? 2)DataSet API指的是Java的DataSet API吗?另外,Java的DataSet API会逐步废弃,统一到DataStream API上来,所以PyFlink里不会支持DataSet API,只支持Python Table API和Python DataStream API


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359326?spm=a2c6h.13262185.0.0.54e839c0D2mgIx


问题二:flink-1.11.2版本,客户端如何设置dynamic properties?


hi,请教一下: 场景:本地使用YarnClusterDescriptor的deployJobCluster方法,提交JobGraph以yarnPer的模式运行到yarn集群。

问题:通过YarnClusterDescriptor的构造器,传入flinkConfiguration配置(在flinkConfiguration中设置dynamicProperties),并不能生效。

之前,使用flink-1.8.1,通过AbstractYarnClusterDescriptor的deployJobCluster进行作业部署提交。而AbstractYarnClusterDescriptor有setDynamicPropertiesEncoded方法,可以传入通过@@拼接后的动态参数。

那么1.11.2版本的,应该如何传入?

来自志愿者整理的flink邮件归档


参考回答:

看FlinkYarnSessionCli代码: final Configuration configuration = applyCommandLineOptionsToConfiguration(cmd); final ClusterClientFactory yarnClusterClientFactory = clusterClientServiceLoader.getClusterClientFactory(configuration); configuration.set(DeploymentOptions.TARGET, YarnDeploymentTarget.SESSION.getName());

final YarnClusterDescriptor yarnClusterDescriptor = (YarnClusterDescriptor) yarnClusterClientFactory.createClusterDescriptor(configuration);

动态参数也是解析成key、value,传给configuration,最后在YarnClusterClientFactory工厂类里面创建YarnClusterDescriptor对象。

所以,当前动态参数设置不生效是bug,还是哪里使用姿势不对。有大佬能解答一下吗


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359049?spm=a2c6h.13262185.0.0.677f6c07q66JNp


问题三:请问是不可以从mysql读取数据吗?


请问是不可以从mysql读取数据吗?


参考回答:

可以读取的,还有内置flink cdc select得用query方法,看看是不是用错了execute。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359044?spm=a2c6h.13262185.0.0.677f6c07q66JNp


问题四:Re: Flink 1.11.2运行一段时间后,会报ResourceManager leader changed to new address null的异常


Mark下。这个问题我也遇到多次,看过一个xintognsongn的回复,由于网络、zk可用性等问题会导致。不够一般会自动恢复。*来自志愿者整理的flink邮件归档


参考回答:

还有没有大佬解释下,我最近又遇到这个问题了,而且很频繁。任务启动1小时restored达到了8。


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359531?spm=a2c6h.13262185.0.0.133c39c0Clkic3


问题五:flink 1.13 k8s native 启动找不到 KubernetesSessionClusterEntrypoint怎么办


sed: cannot rename /opt/flink/conf/sed1yRdDY: Device or resource busy
sed: cannot rename /opt/flink/conf/sed03zP3W: Device or resource busy
/docker-entrypoint.sh: line 73: /opt/flink/conf/flink-conf.yaml: Read-only
file system
sed: cannot rename /opt/flink/conf/sedFtORA0: Device or resource busy
mv: cannot move '/opt/flink/conf/flink-conf.yaml.tmp' to
'/opt/flink/conf/flink-conf.yaml': Device or resource busy
+ /usr/local/openjdk-8/bin/java -classpath '/opt/flink/lib/*' -Xms30720m
-Xmx30720m -Dlogback.configurationFile=file:/opt/flink/conf/logback.xml
-Dlog4j.configuration=file:/opt/flink/conf/log4j.properties
org.apache.flink.kubernetes.entrypoint.KubernetesSessionClusterEntrypoint
Error: Could not find or load main class
org.apache.flink.kubernetes.entrypoint.KubernetesSessionClusterEntrypoint*来自志愿者整理的flink邮件归档


参考回答:

你可以describe一下失败JM的pod发出来,看看生成的启动命令是不是正确的


关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359743

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
SQL 存储 缓存
Paimon与Spark
Paimon与Spark
695 1
|
9月前
|
存储 Rust Go
介绍一下这只小水獭 —— Fluss Logo 背后的故事
Fluss是一款开源流存储项目,致力于为Lakehouse架构提供高效的实时数据层。其全新Logo以一只踏浪前行的小水獭为核心形象,象征流动性、适应性和友好性。水獭灵感源于“Fluss”德语中“河流”的含义,传递灵活与亲和力。经过30多版设计迭代,最终呈现动态活力的视觉效果。Fluss计划捐赠给Apache软件基金会,目前已开启孵化提案。社区还推出了系列周边礼品,欢迎加入钉钉群109135004351参与交流!
976 3
介绍一下这只小水獭 —— Fluss Logo 背后的故事
|
消息中间件 资源调度 Kafka
实时计算 Flink版操作报错合集之提交任务后,如何解决报错:UnavailableDispatcherOperationException
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
存储 SQL 人工智能
Apache Flink 2.0:Streaming into the Future
本文整理自阿里云智能高级技术专家宋辛童、资深技术专家梅源和高级技术专家李麟在 Flink Forward Asia 2024 主会场的分享。三位专家详细介绍了 Flink 2.0 的四大技术方向:Streaming、Stream-Batch Unification、Streaming Lakehouse 和 AI。主要内容包括 Flink 2.0 的存算分离云原生化、流批一体的 Materialized Table、Flink 与 Paimon 的深度集成,以及 Flink 在 AI 领域的应用。
1600 13
Apache Flink 2.0:Streaming into the Future
|
SQL 存储 数据库
Flink + Paimon 数据 CDC 入湖最佳实践
Flink + Paimon 数据 CDC 入湖最佳实践
3050 59
|
算法 API Apache
Flink CDC:新一代实时数据集成框架
本文源自阿里云实时计算团队 Apache Flink Committer 任庆盛在 Apache Asia CommunityOverCode 2024 的分享,涵盖 Flink CDC 的概念、版本历程、内部实现及社区未来规划。Flink CDC 是一种基于数据库日志的 CDC 技术实现的数据集成框架,能高效完成全量和增量数据的实时同步。自 2020 年以来,Flink CDC 经过多次迭代,已成为功能强大的实时数据集成工具,支持多种数据库和数据湖仓系统。未来将进一步扩展生态并提升稳定性。
4903 3
Flink CDC:新一代实时数据集成框架
|
SQL 消息中间件 Kafka
实时计算 Flink版操作报错合集之遇到报错:“Lost leadership”和“Chk failure如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
448 0
|
SQL 关系型数据库 MySQL
Flink SQL 问题之查询时报错如何解决
Flink SQL报错通常指在使用Apache Flink的SQL接口执行数据处理任务时遇到的问题;本合集将收集常见的Flink SQL报错情况及其解决方法,帮助用户迅速恢复数据处理流程。
629 4
|
消息中间件 关系型数据库 MySQL
flink 维表join(一):广播流的使用
flink 维表join(一):广播流的使用