开发者社区> 问答> 正文

pyflink使用的一些疑问?

你好, 最近项目想使用flink进行分布式计算,之前项目是Python的pandas项目,想尝试用pyflink进行项目改造,在使用dataset做批处理时,对于Java的版本没有相关map

reduce函数,所以有以下疑问:

1.Python flink的SDK还没支持dataset吗?

2.是不是有其他替代方法?

3.如果还没支持,有计划支持的时间吗?

4.flink table为啥不支持map reduce操作?

5.我们项目使用dataframe来处理数据,能放到flink上做分布式运算吗?dataframe直接转化为table的方式,table不支持map

reduce操作,对应pandas项目改造成flink,有什么好的建议么?

  1. datastream api为什么没有实现Windows方法?后面版本会支持吗?

非常感谢,十分看好flink,希望社区越做越大,辛苦了!*来自志愿者整理的flink邮件归档

展开
收起
EXCEED 2021-12-01 14:18:32 914 0
1 条回答
写回答
取消 提交回答
  • 您好,

    目前同样在做pyflink 结合pandas的分布式计算调研和尝试,对于您的问题,仅有一些经验性的分享。

    pyflink以后应该都会集成到DataStream,所以应该不会再支持DataSet;

    不建议在计算中间采用 table.to_pandas()的方式进行table和dataFrame互转,会影响计算效率;

    目前采用的计算效率较好的方式,是定义pandas类型的udf/udaf方式,但相较java版接口同样的方式,pyflink还是会慢很多;

    个人感觉,pyflink耗时较多的地方,还是sql_query的操作,相同sql语句,执行效率上较java差别还是很大的。

    以上仅个人使用感觉,若存在问题,欢迎路过大佬批评指正~

    还有,因为调研相同领域,希望能交流调研新发现,感谢~祝好~*来自志愿者整理的flink邮件归档

    2021-12-01 15:06:23
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink技术进阶 立即下载
贺小令|Apache Flink 1.16 简介 立即下载
低代码开发师(初级)实战教程 立即下载