「物联网架构」Apache-Kafka:物联网数据平台的基石

简介: 「物联网架构」Apache-Kafka:物联网数据平台的基石


当谈到物联网(IoT),许多开发者从微控制器、片上系统板、单板计算机、传感器和各种其他电子元件来思考。而设备无疑是物联网的基础,连接的解决方案的核心价值在于这些设备产生的数据。

设备层仅仅是底层数据平台的冰山一角,而底层数据平台则是水面下的重担。强大的物联网数据平台的关键支柱之一是Apache Kafka,它是一种开源软件,旨在处理大量的数据摄取。它充当数据中心中由Apache storm、Apache spark和Apache hadoop集群提供支持的数据处理管道的网关。

如果你是一个将物联网作为职业选择的开发者,那么现在是你开始投资Apache kafka的时候了。本文探讨了Apache kafka在部署可伸缩物联网解决方案中所扮演的角色。

Kafka:传感器数据的高性能摄取层

物联网设备包括能够生成多个数据点的各种传感器,这些数据点以高频率采集。一个简单的恒温器每分钟可以产生几字节的数据,而一辆连接的汽车或风力涡轮机在几秒钟内就可以产生千兆字节的数据。这些海量数据集被摄取到数据处理管道中,用于存储、转换、处理、查询和分析。

每个数据集由多个表示特定度量的数据点组成。例如,连接的暖风、通风和空调(HVAC)系统将报告环境温度、所需温度、湿度、空气质量、鼓风机转速、负荷和能耗指标。

在一个大型购物中心,这些数据点经常从数百个hvac收集。由于这些设备的功能可能不够强大,无法运行完整的TCP网络堆栈,因此它们使用诸如Z-Wave和ZigBee之类的协议将数据发送到能够聚合数据点并将其摄取到系统中的中央网关。


网关将数据集推送到Apache-Kafka集群,其中的数据采用多条路径。需要实时监控的数据点经过热路径。在我们的HVAC场景中,实时跟踪温度、湿度和空气质量等指标以采取纠正措施非常重要。这些数据点可以通过Apache storm和Apache spark集群进行近实时处理。

负载和功耗等指标在一段时间内收集后进行分析。通过批处理过程收集和分析的这些数据点通常采用数据处理管道的冷通道。MapReduce作业可以在Hadoop集群中运行,用于分析hvac的能效。

不管数据点采用什么路径,它们都需要被摄取到系统中。apachekafka充当处理大量数据集的高性能数据摄取层。负责热路径和冷路径分析的数据处理管道组件成为apachekafka的订户。

Kafka vs.MQTT

apachekafka不是MQTT的替代品,MQTT是一种通常用于机器到机器(M2M)通信的消息代理。卡夫卡的设计目标与MQTT有很大不同。

在物联网解决方案中,设备可分为传感器和执行器。传感器生成数据点,而执行器是可以通过命令控制的机械部件。例如,房间中的环境照明可用于调整LED灯泡的亮度。在这种情况下,光传感器需要与LED通信,这是M2M通信的一个例子。MQTT是为传感器网络和M2M优化的协议。

由于Kafka不使用HTTP进行接收,所以它提供了更好的性能和规模。

由于MQTT是为低功耗设备设计的,它无法处理海量数据集的摄取。另一方面,Apache kafka可以处理高速数据摄取,但不能处理M2M。

可扩展的物联网解决方案使用MQTT作为显式设备通信,同时依赖Apache Kafka来接收传感器数据。也可以将Kafka和MQTT桥接起来,以便摄取和M2M。但是建议将设备或网关配置为Kafka生产者,同时仍然参与由MQTT代理管理的M2M网络,从而使它们保持分离。

Kafka与HTTP/REST

apachekafka公开了一个基于二进制协议的TCP端口。推送数据的客户机启动套接字连接,然后写入一系列请求消息并读回相应的响应消息。此协议不需要为每个连接或断开连接进行握手。

由于Kafka不使用HTTP进行接收,所以它提供了更好的性能和规模。客户机可以连接到集群的一个实例来接收数据。这种体系结构与原始TCP套接字相结合提供了最大的可伸缩性和吞吐量。

虽然使用HTTP代理与Kafka集群通信可能很诱人,但建议解决方案使用本机客户机。由于Kafka是用Java编写的,所以本机Java客户机库提供了最好的性能。社区已经为Go、Python甚至甚至构建了优化的客户端库节点.js. Shopify还为Kafka开发了一个名为Sarama的开源Go库。Rackspace的Mailgun团队已经构建了Kafka Pixy,一个Kafka的开源HTTP代理。Python、C#、Ruby和其他语言有多个库。

大多数物联网网关功能强大,足以运行Java、Go或Python。为了获得最佳性能和吞吐量,建议使用本机为Kafka设计的客户端库。

Kafka入门

apache kafka是用Java开发的,它的部署由apache zookeeper管理。任何能够运行JVM的操作系统都可以用来部署Kafka集群。为了测试水,你可以在Docker运行卡夫卡。

如果您不想处理基础设施,可以从云中的托管Kafka服务开始。IBM Bluemix有一个基于Kafka的完全管理的基于云的消息服务MessageHub。Cloud Karafka是公共云中的另一个流式平台,专为Apache Kafka工作负载而设计。Aiven.io提供hosted Kafka以及InfloxDB、Grafana和Elasticsearch。如果你是一个Salesforce.com网站或者Heroku开发者,你可以在Heroku上利用Kafka。

Apache卡夫卡是许多大数据部署的基础。在本系列的后续文章中,我将介绍Kafka的关键概念、体系结构和术语

相关文章
|
2月前
|
存储 消息中间件 Kafka
Confluent 首席架构师万字剖析 Apache Fluss(一):核心概念
Apache Fluss是由阿里巴巴与Ververica合作开发的Flink表存储引擎,旨在提供低延迟、高效率的实时数据存储与变更日志支持。其采用TabletServer与CoordinatorServer架构,结合RocksDB和列式存储,实现主键表与日志表的统一管理,并通过客户端抽象整合湖仓历史数据,弥补Paimon在实时场景下的性能短板。
499 22
Confluent 首席架构师万字剖析 Apache Fluss(一):核心概念
|
存储 Cloud Native 数据处理
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
本文整理自阿里云资深技术专家、Apache Flink PMC 成员梅源在 Flink Forward Asia 新加坡 2025上的分享,深入解析 Flink 状态管理系统的发展历程,从核心设计到 Flink 2.0 存算分离架构,并展望未来基于流批一体的通用增量计算方向。
346 0
从嵌入式状态管理到云原生架构:Apache Flink 的演进与下一代增量计算范式
|
4月前
|
消息中间件 Java Kafka
Java 事件驱动架构设计实战与 Kafka 生态系统组件实操全流程指南
本指南详解Java事件驱动架构与Kafka生态实操,涵盖环境搭建、事件模型定义、生产者与消费者实现、事件测试及高级特性,助你快速构建高可扩展分布式系统。
272 7
|
2月前
|
存储 消息中间件 Kafka
Confluent 首席架构师万字剖析 Apache Fluss(三):湖流一体
原文:https://jack-vanlightly.com/blog/2025/9/2/understanding-apache-fluss 作者:Jack Vanlightly 翻译:Wayne Wang@腾讯 译注:Jack Vanlightly 是一位专注于数据系统底层架构的知名技术博主,他的文章以篇幅长、细节丰富而闻名。目前 Jack 就职于 Confluent,担任首席技术架构师,因此这篇 Fluss 深度分析文章,具备一定的客观参考意义。译文拆成了三篇文章,本文是第二篇。
449 25
Confluent 首席架构师万字剖析 Apache Fluss(三):湖流一体
|
2月前
|
存储 消息中间件 Kafka
Confluent 首席架构师万字剖析 Apache Fluss(二):核心架构
原文:https://jack-vanlightly.com/blog/2025/9/2/understanding-apache-fluss 作者:Jack Vanlightly 翻译:Wayne Wang@腾讯 译注:Jack Vanlightly 是一位专注于数据系统底层架构的知名技术博主,他的文章以篇幅长、细节丰富而闻名。目前 Jack 就职于 Confluent,担任首席技术架构师,因此这篇 Fluss 深度分析文章,具备一定的客观参考意义。译文拆成了三篇文章,本文是第二篇。
364 19
|
5月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
6月前
|
存储 SQL 分布式计算
19章构建企业级大数据平台:从架构设计到数据治理的完整链路
开源社区: 贡献者路径:从提交Issue到成为Committer 会议演讲:通过DataWorks Summit提升影响力 标准制定: 白皮书撰写:通过DAMA数据治理框架认证 专利布局:通过架构设计专利构建技术壁垒
|
3月前
|
消息中间件 缓存 监控
中间件架构设计与实践:构建高性能分布式系统的核心基石
摘要 本文系统探讨了中间件技术及其在分布式系统中的核心价值。作者首先定义了中间件作为连接系统组件的"神经网络",强调其在数据传输、系统稳定性和扩展性中的关键作用。随后详细分类了中间件体系,包括通信中间件(如RabbitMQ/Kafka)、数据中间件(如Redis/MyCAT)等类型。文章重点剖析了消息中间件的实现机制,通过Spring Boot代码示例展示了消息生产者的完整实现,涵盖消息ID生成、持久化、批量发送及重试机制等关键技术点。最后,作者指出中间件架构设计对系统性能的决定性影响,
|
3月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
340 1
|
4月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。

相关产品

  • 物联网平台