问题一:Pyflink dataset没有支持相关map reduce函数怎么办?
你好, 最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,没有相关map reduce函数,所以有以下疑问:
1.Python flink的SDK还没支持dataset吗? 2.是不是有其他替代方法? 3.如果还没支持,有计划支持的时间吗? 4.flink table为啥不支持map reduce操作? 5.我们项目使用dataframe来处理数据,能放到flink上做分布式运算吗?dataframe直接转化为table的方式,table不支持map reduce操作,对应pandas项目改造成flink,有什么好的建议么?
非常感谢,十分看好flink,希望社区越做越大,辛苦了!*来自志愿者整理的flink邮件归档
参考回答:
Hi, 有几个疑问: 1)你说的map reduce函数具体指的什么?可以举一个例子吗? 2)DataSet API指的是Java的DataSet API吗?另外,Java的DataSet API会逐步废弃,统一到DataStream API上来,所以PyFlink里不会支持DataSet API,只支持Python Table API和Python DataStream API
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359326?spm=a2c6h.13262185.0.0.54e839c0D2mgIx
问题二:flink-1.11.2版本,客户端如何设置dynamic properties?
hi,请教一下: 场景:本地使用YarnClusterDescriptor的deployJobCluster方法,提交JobGraph以yarnPer的模式运行到yarn集群。
问题:通过YarnClusterDescriptor的构造器,传入flinkConfiguration配置(在flinkConfiguration中设置dynamicProperties),并不能生效。
之前,使用flink-1.8.1,通过AbstractYarnClusterDescriptor的deployJobCluster进行作业部署提交。而AbstractYarnClusterDescriptor有setDynamicPropertiesEncoded方法,可以传入通过@@拼接后的动态参数。
那么1.11.2版本的,应该如何传入?
来自志愿者整理的flink邮件归档
参考回答:
看FlinkYarnSessionCli代码: final Configuration configuration = applyCommandLineOptionsToConfiguration(cmd); final ClusterClientFactory yarnClusterClientFactory = clusterClientServiceLoader.getClusterClientFactory(configuration); configuration.set(DeploymentOptions.TARGET, YarnDeploymentTarget.SESSION.getName());
final YarnClusterDescriptor yarnClusterDescriptor = (YarnClusterDescriptor) yarnClusterClientFactory.createClusterDescriptor(configuration);
动态参数也是解析成key、value,传给configuration,最后在YarnClusterClientFactory工厂类里面创建YarnClusterDescriptor对象。
所以,当前动态参数设置不生效是bug,还是哪里使用姿势不对。有大佬能解答一下吗
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359049?spm=a2c6h.13262185.0.0.677f6c07q66JNp
问题三:请问是不可以从mysql读取数据吗?
请问是不可以从mysql读取数据吗?
参考回答:
可以读取的,还有内置flink cdc select得用query方法,看看是不是用错了execute。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359044?spm=a2c6h.13262185.0.0.677f6c07q66JNp
问题四:Re: Flink 1.11.2运行一段时间后,会报ResourceManager leader changed to new address null的异常
Mark下。这个问题我也遇到多次,看过一个xintognsongn的回复,由于网络、zk可用性等问题会导致。不够一般会自动恢复。*来自志愿者整理的flink邮件归档
参考回答:
还有没有大佬解释下,我最近又遇到这个问题了,而且很频繁。任务启动1小时restored达到了8。
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359531?spm=a2c6h.13262185.0.0.133c39c0Clkic3
问题五:flink 1.13 k8s native 启动找不到 KubernetesSessionClusterEntrypoint怎么办
sed: cannot rename /opt/flink/conf/sed1yRdDY: Device or resource busy sed: cannot rename /opt/flink/conf/sed03zP3W: Device or resource busy /docker-entrypoint.sh: line 73: /opt/flink/conf/flink-conf.yaml: Read-only file system sed: cannot rename /opt/flink/conf/sedFtORA0: Device or resource busy mv: cannot move '/opt/flink/conf/flink-conf.yaml.tmp' to '/opt/flink/conf/flink-conf.yaml': Device or resource busy + /usr/local/openjdk-8/bin/java -classpath '/opt/flink/lib/*' -Xms30720m -Xmx30720m -Dlogback.configurationFile=file:/opt/flink/conf/logback.xml -Dlog4j.configuration=file:/opt/flink/conf/log4j.properties org.apache.flink.kubernetes.entrypoint.KubernetesSessionClusterEntrypoint Error: Could not find or load main class org.apache.flink.kubernetes.entrypoint.KubernetesSessionClusterEntrypoint*来自志愿者整理的flink邮件归档
参考回答:
你可以describe一下失败JM的pod发出来,看看生成的启动命令是不是正确的
关于本问题的更多回答可点击原文查看:https://developer.aliyun.com/ask/359743