Apache Flink Python API 的现状及未来规划(二)| 学习笔记

简介: 快速学习 Apache Flink Python API 的现状及未来规划。

开发者学堂课程【Apache Flink 入门到实战 - Flink 开源社区出品 Apache Flink Python API 的现状及未来规划(二)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/632/detail/10042


Apache Flink Python API 的现状及未来规划(二)

 

三,Apeche Flink Python API 核心算子介绝及应用

1,Python Table API 算子

除了单流之后,还有双流的操作,比如说双流转,双流的这个 minutes,所以说这种算子,在这个 python 的 API 里面也得到了很好的支持。

image.png

Windows 跟其他的词有些特殊,第一个,就是在实际当中,会有一个时间的属性,python 的语法和这个 Java 的语法是一模一样的,它的接口是保持一致的,那么 Tom 也是一个 tablewindow 然后再加一个 window 的一个定义

2,Python Table API 算子—Watermark 定义

.with_format(

Json()

.fail_on_missing_field(True)

.json_schema(

"{"

“type: 'object',"

“properties:{"

“a:{"

“type:'string”

"},"

“time:{"

“type: 'string',"

“format: 'date-time"

"}"

"}"

"}"

}

.with_schema(

Schema()

.field("rowtime",DataTypes.TIMESTAMP())

.rowtime(

Rowtime()

.timestamps_from field("time")

.watermarks_periodic_bounded(60000))

.field("a",DataTypes.STRING())

) 

python 能够和 Java API 进行对其功能进行对齐。但是始终没持续那么流畅,他不是按顺序的,可以说乱序,对于这种乱性,就是一个流畅客观存在的一种状态,在这个福利上,用 word 的机制来解决这种乱序的问题。

假设我有一个节省的数据,有一个 a 字段可以实现字段时间字段 daytime,增加一个 rom 的列,那么必须是一个 times name 的类型,并且点燃之后要围绕 Tom 定义

但是在表里面用的字段的名称是 rom time,也就是如果写 window 的话,用的应该是 real time 这个字符串

下面这个 what mark would mark ,有多种定义方式

这个6万单位其实是毫秒,那其实60秒一分钟他说明如果数据是乱序的,其实是能够处理在一分钟之内的乱序的,所以这个值调的越大数据乱序接受程度越高,但是有一点就是它数据的延迟也会越高

3,Python Table API -Java UDF

Java UDF

虽然我们在 Flink-1.9中没有支持 Python 的 UDF,但在 Fink 1.9 版木中我们可以使用 lava UDF。

1. 创建 java 项目,并配置 pom 依赖如下:

>

org apache.flink

flink-table-common

1.9-SNAPSHOT

provided

2.编写一个计算字符申长度的函数 UDFLength

package org.apache.flink.udf;

import org.apache.flink.table.functions.ScalarFunction;

public class UDFLength extends ScalarFunction{

public int eval(String str)(

return strlength();}

}

}

3.注册和使用:

t_envregister_java_function("len","org.apache.flink.udf.UDFLength")

....

select("word, lerdword),count(1) as count")

4,Python Table API -Java UDFs

开发 PythonJob,并使用上面自定义的 UDFLength 函数:https:/lgithub.com/sunjincheng121/enjoyment.code/blob/master/mypyFlink/enjoyment/word count_udfpy

提交 Python Job,并上传 UDFJAR 包:

/bin/flink run-py word_count_udf.py -j /flink-udf-1.0.0.jar

.Scalar FunctionT_envregister_iava_function("len","org.apache.flink.udf.UDFLength")

....

.select("word, len(word), count(1) as count")

.Table Function

t.env.register..ava..function("split", "com.pyflink.table,Split")

tab.join.laterall"Split(a) as (word, length)").select("a, word, length")

.Aggregate Function

t.env.register.javafunction("wAvg", "com.pyflink.table.WeightedAvg") tab.group by("a").select("a, wAvg(b) as d") 

5,Python Table API 常用链接

Python Table API 文档

https://ci.apache.org/projects/flink/flink-docs-master/api/python/

Python Table API IDE 开发环境

https://cwiki.apache.org/confluence/display/FLINK/Setting+up+a+Flink+development+environment

Python Shell

https://ci.apache.org/projects/flink/flink-docs-master/ops/pythen_shell.html

Python Table API Tutorial

https://ci.apache.org/projects/flink/flink-docs-master/tutorials/python table api.html

https://enjoyment.cool/

对那么 spark 本身它其实它指的是一些 udf 的性能上的一个损失,对于1.9来讲,目前的1.9来讲其实没有性能损失在里面,原因是这个,本身我们所有的案算子都是一个 Flink 内部的一个 native 算子,直接利用构建构建甲瓦的这构件加盟的这个 graph。 graph 其实跟目前这样的架构会共用和共享,CAD 里面的优化机制都能享受,在1.9版本里面只是切换了一种语言的入口。

从性能的角度现在没有损失。这个几个有价值的数据,研究方向和机器学习,研究方向论文,最好中文,这些都是机器学习的这个大数据的研究方向,在阿里内部也有很多这种方向。

相关实践学习
基于Hologres+Flink搭建GitHub实时数据大屏
通过使用Flink、Hologres构建实时数仓,并通过Hologres对接BI分析工具(以DataV为例),实现海量数据实时分析.
实时计算 Flink 实战课程
如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 极客训练营产品、技术专家齐上阵,从开源 Flink功能介绍到实时计算 Flink 优势详解,现场实操,5天即可上手! 欢迎开通实时计算 Flink 版: https://cn.aliyun.com/product/bigdata/sc Flink Forward Asia 介绍: Flink Forward 是由 Apache 官方授权,Apache Flink Community China 支持的会议,通过参会不仅可以了解到 Flink 社区的最新动态和发展计划,还可以了解到国内外一线大厂围绕 Flink 生态的生产实践经验,是 Flink 开发者和使用者不可错过的盛会。 去年经过品牌升级后的 Flink Forward Asia 吸引了超过2000人线下参与,一举成为国内最大的 Apache 顶级项目会议。结合2020年的特殊情况,Flink Forward Asia 2020 将在12月26日以线上峰会的形式与大家见面。
相关文章
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
人工智能 数据处理 API
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
Apache Flink Agents 是由阿里云、Ververica、Confluent 与 LinkedIn 联合推出的开源子项目,旨在基于 Flink 构建可扩展、事件驱动的生产级 AI 智能体框架,实现数据与智能的实时融合。
442 6
阿里云、Ververica、Confluent 与 LinkedIn 携手推进流式创新,共筑基于 Apache Flink Agents 的智能体 AI 未来
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
Cloud Native 算法 API
Python API接口实战指南:从入门到精通
🌟蒋星熠Jaxonic,技术宇宙的星际旅人。深耕API开发,以Python为舟,探索RESTful、GraphQL等接口奥秘。擅长requests、aiohttp实战,专注性能优化与架构设计,用代码连接万物,谱写极客诗篇。
Python API接口实战指南:从入门到精通
|
3月前
|
JSON API 数据安全/隐私保护
Python采集淘宝评论API接口及JSON数据返回全流程指南
Python采集淘宝评论API接口及JSON数据返回全流程指南
|
3月前
|
缓存 监控 供应链
唯品会自定义 API 自定义操作深度分析及 Python 实现
唯品会开放平台提供丰富API,支持商品查询、订单管理、促销活动等电商全流程操作。基于OAuth 2.0认证机制,具备安全稳定的特点。通过组合调用基础接口,可实现数据聚合、流程自动化、监控预警及跨平台集成,广泛应用于供应链管理、数据分析和智能采购等领域。结合Python实现方案,可高效完成商品搜索、订单分析、库存监控等功能,提升电商运营效率。
|
3月前
|
缓存 监控 供应链
京东自定义 API 操作深度分析及 Python 实现
京东开放平台提供丰富API接口,支持商品、订单、库存等电商全链路场景。通过自定义API组合调用,可实现店铺管理、数据分析、竞品监控等功能,提升运营效率。本文详解其架构、Python实现与应用策略。
JSON 监控 API
109 0
|
3月前
|
人工智能 运维 Java
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
本文基于Apache Flink PMC成员宋辛童在Community Over Code Asia 2025的演讲,深入解析Flink Agents项目的技术背景、架构设计与应用场景。该项目聚焦事件驱动型AI智能体,结合Flink的实时处理能力,推动AI在工业场景中的工程化落地,涵盖智能运维、直播分析等典型应用,展现其在AI发展第四层次——智能体AI中的重要意义。
1311 27
Flink Agents:基于Apache Flink的事件驱动AI智能体框架
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
343 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式