文档备案控制台

开发者社区问答正文

PyFlink DataStream API 作业（适合线上作业）完整的作业示例是什么？

PyFlink DataStream API 作业（适合线上作业）完整的作业示例是什么？

展开

收起

游客qzzytmszf3zhq 2021-12-07 15:11:51 446 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客yzrzs5mf6j7yy

from pyflink.common.typeinfo import Types
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment


def data_stream_api_demo():
    env = StreamExecutionEnvironment.get_execution_environment()
    t_env = StreamTableEnvironment.create(stream_execution_environment=env)
    env.set_parallelism(4)

    t_env.execute_sql("""
            CREATE TABLE my_source (
              a INT,
              b VARCHAR
            ) WITH (
              'connector' = 'datagen',
              'number-of-rows' = '10'
            )
        """)

    ds = t_env.to_append_stream(
        t_env.from_path('my_source'),
        Types.ROW([Types.INT(), Types.STRING()]))

    def split(s):
        splits = s[1].split("|")
        for sp in splits:
            yield s[0], sp

    ds = ds.map(lambda i: (i[0] + 1, i[1])) \
           .flat_map(split, Types.TUPLE([Types.INT(), Types.STRING()])) \
           .key_by(lambda i: i[1]) \
           .reduce(lambda i, j: (i[0] + j[0], i[1]))

    t_env.execute_sql("""
            CREATE TABLE my_sink (
              a INT,
              b VARCHAR
            ) WITH (
              'connector' = 'print'
            )
        """)

    table = t_env.from_data_stream(ds)
    table_result = table.execute_insert("my_sink")

    # 1）等待作业执行结束，用于local执行，否则可能作业尚未执行结束，该脚本已退出，会导致minicluster过早退出
    # 2）当作业通过detach模式往remote集群提交时，比如YARN/Standalone/K8s等，需要移除该方法
    table_result.wait()


if __name__ == '__main__':
    data_stream_api_demo()

2021-12-07 15:12:04

赞同展开评论

问答分类：

API 实时计算 Flink版

问答标签：

API示例 datastream API API pyflink pyflink API API作业

问答地址：

开发者社区 > 开发与运维 > 问答

相关问答

在阿里云视觉智能开放平台中，活体检测api有没有postman的示例调用？

305

3

0

编写一个创建并使用Assistant API的示例例子

342

1

0

Flink的datastream api消费holo表的binlog的时候起始时间是怎么设置的？

278

1

0

在钉钉中获取部门的API示例只有旧版SDK，有新版SDK各API接口的示例吗？

505

2

0

PyFlink在功能上如何与Java API对齐？

184

1

0

请问机器翻译中http 的api调用文档是否有其他语言的版本示例？

243

1

0

文字识别OCR 这边有作业批改的API吗？

331

1

0

在Flink CDC中获取DDL是用Flink的DataStream API拿到的吧？

208

1

0

在Flink CDC中目前只能用DataStream API来实现吗？

179

1

0

这个API那个公共参数不就8个吗？后面然后跟上调用接口的参数对面？

1215

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

阿里云服务器多少钱一年？学生用的配置价格

相关文章

使用阿里云GPU服务器快速部署DeepSeek-V4-Pro模型：Chatbox可视化接入全流程

怎么用 Chatbox 调用 DeepSeek-V4？阿里云百炼 API Key 配置全流程

企业如何监测品牌在豆包/AI回答中的出现频率

海洋边缘交换二期（OMEX II）项目

DeepSeek-V4-Pro快速接入教程：使用阿里云GPU服务器全流程

还有其他疑问?