深入浅出事件流处理NEsper(三)

简介:

首先介绍一下NESPER的大体结构,NEsper从内容上分为两块,NEsper的核心NEsper.dll和NEsper.IO.dll。

(1)NEsper的核心包包含了EPL语法解析引擎,事件监听机制,事件处理等核心模块。

(2)NEsper的io包含从各种数据源读取数据以及将输出结果写入各种数据源,包括excel,database,msmq,http,socket,XML。

贴一张esper官网上的结构图,方便大家了解esper的结构

nesper


02212642-e057c8da962b40788abdf5f00c34bb4

接下来对上述结构图进行详细的解释让大家加深对ESPER的了解

  1. Event对象:NESPER处理的事件的最小单位,一个任意的CLR对象,属性支持简单的CLR类型、数组、map、以及嵌套POCO,很灵活.

2.EPL:EPL是ESPER的核心,它类似于SQL,但是和SQL的执行方式不同。

SQL是数据在那里,你每次执行SQL就会触发一次查询;而EPL是查询在这里,数据输入达到一定条件即可触发查询。

这个条件可以有多种:

a).每个event对象来就触发一次查询,并只处理当前对象

select * from OrderEvent

这个EPL语句会在每个OrderEvent对象到达后,并将该event交给后续的Listener(后面会讲到)来进行处理。但是这种用法不多见,意义不大。

b).窗口处理模式:

EPL最大的特色就是这个窗口处理模式,有两种窗口,时间窗口和长度窗口。

时间窗口 : 大家想一下,如果有一个场景,要获取最近3秒内OrderEvent的price的平均值,那该怎么做呢?一般的做法需要做个后台线程来做3秒的时间统计,时间到了再做后续处理,虽然不复杂,但是也挺繁琐的。

看看EPL是怎么做的

select avg(price) from test.OrderEvent.win:time(3 sec)

win:time(3 sec)就是定义了3秒的时间窗口,avg(price)就是统计了3秒内的OrderEvent对象的price的平均值
长度窗口: 长度窗口和时间窗口比较类似

select avg(price) from test.OrderEvent.win:length(100)

win:length(10)就是定义了10个Event的,avg(price)就是统计了最近10个的OrderEvent对象的price的平均值
以上这些都比较容易理解,虽然知道了处理方法,也比较好用,我还是比较喜欢钻研一下他的内部实现方式。先来看一张时间窗口模式的图


02212648-e478535559cd4073bf8a94200dc4b0c

他仅保留最近时间窗口的对象内容,但是每个Event到来都会触发一次UpdateListener的操作

EPL语句会作为一个Statement来监听事件的到来,当New Events有新事件时就会触发UpdateListener的操作,下面是一个updateListener的简单例子,event.get("avg(price))就可以获得EPL查询所获得的price平均值,然后就可以加入自己的代码进行处理,比如将结果写入本地文件

而New Events和Old Events就是他的输入,而ave(price)操作所计算的对象就是Length Window中的内容。

public class MyListener : UpdateListener {
    public void update(EventBean[] newEvents, EventBean[] oldEvents) {
        EventBean event = newEvents[0];
        Console.WriteLine("avg=" + event.Get("avg(price)"));
    }
}

事件窗口也基本类似。

c)批量窗口处理模式

窗口模式是会在每个Event来都触发一次UpdateListener操作,如果每秒Event数量达到很大的话这种方式明显是不行的 CPU消耗会很厉害

批量窗口处理模式正好可以解决这个问题


02212653-f23a3940749d4e419a195ee6f19d683

上图的时间窗口大小为4s,他会在4s的窗口时间到达以后才将窗口中的内容一起扔给UpdateListener来进行处理,性能相对节约很多,特别是大数据量的情况下。长度批量窗口的处理模式也是类似。

上述窗口模式下内存使用情况又是如何呢?经过本人测试和研究代码发现,它会保留两个窗口的内存使用量,一个保存当前窗口的Events,一个保存上一个窗口的Events,因此在估算一个数据分析程序占用多少内存要看上面监听的EPL语句开的窗口的大小以及数据的TPS,防止内存OOM。

掌握了上面的窗口的概念,后面其他的内容都很好理解了

d) 过滤

where过滤

select avg(price) from test.OrderEvent.win:time_batch(3 sec) where price>10

having过滤

select avg(price) from test.OrderEvent.win:time_batch(3 sec) having price>10

似曾相识啊,执行方式也基本和SQL里的where 和 having差不多。
在EPL里where 是在incoming Events到window之间进行过滤,having是在window到New Eventing之间进行过滤

e)聚合

count

select count(price) from test.OrderEvent.win:time_batch(3 sec) where price>10

sum

select sum(price) from test.OrderEvent.win:time_batch(3 sec) where price>10

group by
select itemName,sum(price) from test.OrderEvent.win:time_batch(3 sec) where price>10 group by itemName

都很简单,了解SQL的都狠容易上手

f) 函数

ESPER默认加载

• System
• System.Collections
• System.Text

支持这些包下的函数方法,例如

select Math.round(sum(price)) from test.OrderEvent.win:time_batch(3 sec) where price>10

它还支持自定义函数,举个例子,做个计算百分比的函数

public class MyUtilityClass{
   public static double computePercent(double amount, double total) {
        return amount / total * 100;
   }
}

配置一下
<esper-configuration
  <plugin-singlerow-function name="percent"
    function-class="mycompany.MyUtilityClass" function-method="computePercent" />
</esper-configuration>

OK了,可以用了
select percent(price,total) from OrderEvent

总体来说,ESPER的EPL功能非常强大,而且基本和SQL类似,入门容易,构造一个实时数据分析系统比较简单,且维护成本低,新应用进来只需要简单配置一下EPL语句就可以了,方便快捷,对大部分的系统还是比较适合的。

本文来自云栖社区合作伙伴“doNET跨平台”,了解相关信息可以关注“opendotnet”微信公众号

目录
相关文章
|
存储 前端开发 Java
学成在线笔记+踩坑(5)——【媒资模块】上传视频,断点续传
上传视频,MinIO断点续传、检查文件/分块、上传分块、合并分块
学成在线笔记+踩坑(5)——【媒资模块】上传视频,断点续传
|
运维
[故障处理]nfs导致系统负载异常
[故障处理]nfs导致系统负载异常
229 0
|
Java Apache C++
别再手写RPC了,Apache Thrift帮你自动生成RPC客户端及服务端代码
Thrift 是一个轻量级、跨语言的远程服务调用框架,由 Facebook 开发并贡献给 Apache。它通过 IDL 生成多种语言的 RPC 服务端和客户端代码,支持 C++、Java、Python 等。Thrift 的主要特点包括开发速度快、接口维护简单、学习成本低和多语言支持。广泛应用于 Cassandra、Hadoop 等开源项目及 Facebook、百度等公司。
别再手写RPC了,Apache Thrift帮你自动生成RPC客户端及服务端代码
|
缓存 监控 负载均衡
一文讲明Hystrix熔断器
这篇文章详细阐述了Hystrix熔断器的原理和应用,解释了分布式系统中服务雪崩的问题,并展示了如何在Spring Cloud框架中使用Hystrix进行熔断和降级处理。
一文讲明Hystrix熔断器
|
算法 程序员 开发工具
C语言编程规范
C 语言编程规范有助于提升代码的可读性、可维护性和可移植性。主要包括:命名规范(如 `my_variable`、`MAX_SIZE`)、代码缩进与空格、注释(解释逻辑但不过度)、函数设计(短小精悍、参数不超过三个)、错误处理、避免魔法数字、选择合适数据结构、使用标准库、保持代码格式一致及版本控制。遵循这些规范能显著提高团队开发效率和代码质量。
1421 2
|
缓存 安全 Linux
Linux 设备驱动程序(二)(上)
Linux 设备驱动程序(二)
195 1
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
1049 0
【Qt 学习笔记】Qt常用控件 | 布局管理器 | 表单布局Form Layout
【Qt 学习笔记】Qt常用控件 | 布局管理器 | 表单布局Form Layout
606 2
|
数据采集 数据可视化 算法
GitHub星标68K!Python数据分析入门手册带你从数据获取到可视化
Python作为一门优秀的编程语言,近年来受到很多编程爱好者的青睐。一是因为Python本身具有简捷优美、易学易用的特点;二是由于互联网的飞速发展,我们正迎来大数据的时代,而Python 无论是在数据的采集与处理方面,还是在数据分析与可视化方面都有独特的优势。我们可以利用 Python 便捷地开展与数据相关的项目,以很低的学习成本快速完成项目的研究。 今天给小伙伴们分享的这份Python数据分析入门手册本着实用性的目的,着眼于整个数据分析的流程,介绍了从数据采集到可视化的大致流程。
|
安全 物联网 智能硬件
低功耗广域网的代表主要有LORA和NB-IOT和TPUNB
本文对比介绍了三种低功耗广域网技术——LoRa、NB-IoT和TPUNB。LoRa利用扩频技术实现远距离、低功耗通信,适用于智能城市和环境监测。NB-IoT基于蜂窝网络,提供广覆盖和长电池寿命,常用于智能电表和智能停车。TPUNB是技象科技的自主LPWAN技术,具备高安全性和抗干扰性,适用于智慧城市和工业物联网。这些技术各有优势,满足不同场景需求,推动了物联网的发展。
1212 1