备案控制台

开发者社区微服务文章正文

Blink流式计算-Kafka接入demo

2020-01-10 1177

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

简介： //定义解析Kakfa message的UDTF CREATE FUNCTION myParse AS 'com.xxxxxx.MyKafkaUDTF'; CREATE FUNCTION myUdf AS 'com.xxxxxxx.MyWaterMarkUDTF'; //注意：kafka源表DDL字段必须与以下例子一致 create table my_input (

//定义解析Kakfa message的UDTF

CREATE FUNCTION myParse AS 'com.xxxxxx.MyKafkaUDTF';

CREATE FUNCTION myUdf AS 'com.xxxxxxx.MyWaterMarkUDTF';

//注意：kafka源表DDL字段必须与以下例子一致

create table my_input (

messageKey VARBINARY,

message VARBINARY,

topic varchar,

partition int,

offset bigint,

ctTime AS TO_TIMESTAMP (myUdf (message)),

//注意计算里的类型必须为timestamp才能在做watermark。

WATERMARK wk FOR ctTime AS WITHOFFSET (ctTime, 2000) --为rowtime定义watermark

) WITH (

type = 'KAFKA08',

topic = 'myTopic',

group.id = 'mGroup',

extraConfig = 'bootstrap.servers=127.0.0.1:9092',

zookeeper.connect = '127.0.0.1:2181',

startupMode = 'EARLISET'

);

-- 滚动窗口 group by prodId

CREATE VIEW input_view01 (

windowStart,

windowEnd,

prodId,

prodName,

prodNumber

) AS

SELECT

HOP_START (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE),

HOP_END (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE),

T.prodId as prodId,

T.prodName as prodName,

count (*) as prodNumber

from

my_input as S,

LATERAL TABLE (myParse (message)) as T (

id,

prodId,

prodName,

createdAt,

updatedAt

)

Group BY HOP (S.ctTime, INTERVAL '30' SECOND, INTERVAL '2' MINUTE), T.prodId, T.prodName;

CREATE VIEW input_view60 (

id,

prodId,

prodName,

createdAt,

updatedAt

) AS

SELECT

T.id,

T.prodId,

T.prodName,

T.createdAt,

T.updatedAt

from

my_input as S,

LATERAL TABLE (myParse (message)) as T (

id,

goCs,

prodId,

prodName,

createdAt,

updatedAt

);

-- 结果print

create table outprint01(

prodId bigint,

prodName varchar,

prodNumber bigint

)with(

type = 'print'

);

insert into outprint01

select prodId , prodName , prodNumber

from input_view01;

-- 结算结果写入Kafka

create table result_kafka (

messageKey VARBINARY,

message VARBINARY,

PRIMARY KEY (messageKey)

) with (

type = 'KAFKA08',

topic = 'myResultTopic',

extraConfig='bootstrap.servers=127.0.0.1:9092',

zookeeper.connect = '127.0.0.1:2181',

startupMode='EARLISET'

);

//此处的结果输出，可以考虑将结果组装成字符串，中间用|隔开，接收方再解析

INSERT INTO

result_kafka

SELECT

cast(prodId as VARBINARY) as messageKey,

cast(prodName as VARBINARY) as message

FROM

input_view01;

MyKafkaUDTF写法：

package com.xxxxxxxx;

import com.alibaba.fastjson.JSONObject;

import org.apache.flink.table.functions.TableFunction;

import org.apache.flink.table.types.DataType;

import org.apache.flink.table.types.DataTypes;

import org.apache.flink.types.Row;

import java.io.UnsupportedEncodingException;

import java.sql.Timestamp;

public class MyKafkaUDTF extends TableFunction {

public void eval(byte[] message) {

try {

String msg = new String(message, "UTF-8");

System.out.println("收到的消息:"+msg);

try {

JSONObject jsonObject = JSONObject.parseObject(msg);

if (jsonObject != null) {

//id

Long id = jsonObject.getLong("id");

//prodId

Long prodId = jsonObject.getLong("prodId");

//prodName

String prodName = jsonObject.getString("prodName ");

Long createAt = jsonObject.getLong("createdAt");

Long updatedAt = jsonObject.getLong("updatedAt");

//创建时间时间戳

Timestamp createAtTimeStamp = new Timestamp(createAt);

Timestamp updatedAtTimeStamp = new Timestamp(updatedAt);

Row row = new Row(8);

row.setField(0, id);

row.setField(1, prodId);

row.setField(2, prodName);

row.setField(3, createAtTimeStamp );

row.setField(4, updatedAtTimeStamp );

System.out.println("message str ==>" + row.toString());

collect(row);

}

} catch (Exception e) {

e.printStackTrace();

System.out.println(" error. Input data " + msg + "is not json string");

}

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

}

@Override

// 如果返回值是Row，就必须重载实现这个方法，显式地告诉系统返回的字段类型

public DataType getResultType(Object[] arguments, Class[] argTypes) {

return DataTypes.createRowType(

DataTypes.LONG,

DataTypes.LONG,

DataTypes.STRING,

DataTypes.TIMESTAMP,

DataTypes.TIMESTAMP);

}

}

package xxxxxxx;

import com.alibaba.fastjson.JSONObject;

import org.apache.flink.table.functions.ScalarFunction;

import java.text.SimpleDateFormat;

import java.util.Date;

public class MyWaterMarkUDTF extends ScalarFunction {

public String eval(byte[] message) {

try {

String msg = new String(message, "UTF-8");

JSONObject data = JSONObject.parseObject(msg);

System.out.println("time:"+data.getString("createdAt"));

Long createAtLong = data.getLong("createdAt");

SimpleDateFormat parser = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

String createTimeStr = parser.format(new Date(createAtLong));

return createTimeStr;

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

//可选，close方法可以不写

@Override

public void close() {

}

}

文章标签：

云消息队列 Kafka 版

实时计算 Flink版

消息中间件

流计算

SQL

Kafka

数据格式

JSON

sk_zard

目录

相关文章

龙大吉

|

3月前

|

消息中间件监控 Kafka

Apache Kafka 成为实时数据流处理的关键组件

【10月更文挑战第8天】随着大数据技术的发展，Apache Kafka 成为实时数据流处理的关键组件。Kafka Manager 提供了一个简洁易用的 Web 界面，方便管理和监控 Kafka 集群。本文详细介绍了 Kafka Manager 的部署步骤和基本使用方法，包括配置文件修改、启动服务、创建和管理 Topic 等操作，帮助你快速上手。

龙大吉

68 3 3

真的很搞笑

|

8月前

|

消息中间件关系型数据库 Kafka

实时计算 Flink版产品使用合集之想要加快消费 Kafka 数据的速度，该怎么配置参数

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

真的很搞笑

242 2 2

sunrr

|

8月前

|

消息中间件 Kafka Apache

Flink 提供了与 Kafka 集成的官方 Connector，使得 Flink 能够消费 Kafka 数据

【2月更文挑战第6天】Flink 提供了与 Kafka 集成的官方 Connector，使得 Flink 能够消费 Kafka 数据

sunrr

290 2 2

三分钟热度的鱼

|

5月前

|

消息中间件存储关系型数据库

实时计算 Flink版产品使用问题之如何使用Kafka Connector将数据写入到Kafka

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

156 0 0

三分钟热度的鱼

|

8月前

|

消息中间件 Kafka 分布式数据库

实时计算 Flink版产品使用合集之如何批量读取Kafka数据

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

三分钟热度的鱼

1209 1 1

Jack_hrx

|

7月前

|

消息中间件存储 Java

Kafka 详解：全面解析分布式流处理平台

Kafka 详解：全面解析分布式流处理平台

Jack_hrx

396 0 0

真的很搞笑

|

8月前

|

SQL 消息中间件 Kafka

实时计算 Flink版产品使用合集之支持sink到多分区的kafka ，还能保持有序吗

实时计算Flink版作为一种强大的流处理和批处理统一的计算框架，广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器，提供了一套全面的解决方案，以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点，使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。

真的很搞笑

72 0 0

阿里云实时计算Flink

|

消息中间件 Kafka Apache

Flink CDC+Kafka 加速业务实时化

阿里巴巴开发工程师，Apache Flink Committer 任庆盛，在 9 月 24 日 Apache Flink Meetup 的分享。

阿里云实时计算Flink

22534 1 8

Flink CDC+Kafka 加速业务实时化

晓之以理的喵~~

|

8月前

|

消息中间件分布式计算 Kafka

Spark与Kafka的集成与流数据处理

Spark与Kafka的集成与流数据处理

晓之以理的喵~~

432 0 0

程序员欣宸

|

消息中间件 Java Kafka

Flink的sink实战之二：kafka

实践如何将flink数据集sink到kafka

程序员欣宸

326 0 0

Flink的sink实战之二：kafka

热门文章

最新文章

2020云栖大会，云效分论坛不容错过的四大亮点指引

AI大咖专访丨阿里靖世：博士的研究同样可以在工业界做，更可以影响亿万人的生活！

技术，技术人员，谁是风，谁是草

Webbrowser execCommand 与 ExecWB的执行条件

为什么说systemd是系统管理员的利器

动态权限<一>基本介绍

打击假新闻：谷歌新闻加入“事实调查”标签

把PHP大牛记下来，方便以后关注

什么是供应链

字符串所占的字节长度

《鸿蒙Next：让人工智能应用自适应不同屏幕，畅享极致体验》

《鸿蒙Next中的新兴人工智能算法：适应性与性能的双重提升》

《鸿蒙Next：让人工智能语音交互听懂每一种方言和口音》

《开源与合作：驱动鸿蒙Next系统中人工智能技术创新发展的双引擎》

《鸿蒙Next应用商店：人工智能开启智能推荐与运营新时代》

【Azure Developer】.NET Aspire 项目本地调试遇 Grpc.Core.RpcException 异常( Error starting gRPC call ... )

深入剖析 OALP 与 OLTP：概念、区别、技术、场景

MPP 架构与 Hadoop 架构技术选型指南

Druid、ClickHouse、Doris、StarRocks 的区别与分析

Druid 架构原理及核心特性详解

相关课程

更多

分布式消息系统 Kafka 快速入门

消息队列Kafka入门课程

基于Flink的实时大数据应用Demo

实时数据接入：5分钟上手 Flink MySQL 连接器

实时计算 Flink 版产品入门与实操

分布式协调系统 Zookeeper 快速入门

相关电子书

更多

任庆盛｜Flink CDC + Kafka 加速业务实时化

消息队列 Kafka 版差异化特性

MaxCompute技术公开课第四季之如何将Kafka数据同步至MaxCompute

相关实验场景

更多

基于Hologres+Flink搭建GitHub实时数据大屏

基于Flink+Tair搭建实时监控大屏

5分钟上手Flink MySQL连接器

使用Flink实时发现最热Github项目

RocketMQ一站式入门使用

下一篇

阿里云开通OSS存储服务详细流程