大数据流处理平台的技术选型参考-阿里云开发者社区

大数据流处理平台的技术选型参考

2023-02-08 317

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

Redis 开源版，标准版 2GB

云数据库 Tair（兼容Redis），内存型 2GB

简介： 大数据流处理平台的技术选型参考

选择太多，是一件好事情，不过也容易乱花渐欲迷人眼。倘若每个平台（技术）都去动手操练一下，似乎又太耗时间。通过阅读一些文档，可以帮我们快速做一次筛选。在将选择范围进一步缩小后，接下来就可以结合自己的应用场景去深入Spike，做深度的甄别，这是我做技术选型的一个方法。

技术没有最好，只有最适用。在做技术选型时，需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断，而非理想主义的追捧。若是在实用的技术选型中，再能点燃一些些技术上的情怀，那就perfect了！

属性矩阵(Attributes Matrix)

我在《Apache下流处理项目巡览》一文中翻译了Janakiram的这篇文章，介绍了Apache基金会下最主流的流处理项目。巧的是，我在InfoQ上又发现了Ian Hellstrom的文章，他用一张图给出了非常棒的总结。

为了更好地阅读，我将这张图的内容转成一张矩阵表。由于Ian的文章是2016年撰写的，我对其内容做了适度更新。

注：由于微信排版关系，若要查看技术选型的矩阵表，请点击文末的“阅读原文”查看详情。

数据流模型

在进行流数据处理时，必然需要消费上游的数据源，并在处理数据后输出到指定的存储，以待之后的数据分析。站在流数据的角度，无论其对数据的抽象是什么，都可以视为是对消息的生产与消费。这个过程是一个数据流（data flow），那么负责参与其中的设计元素就可以称之为是“数据流模型（Data flow model）”。

不同流处理平台的数据流模型有自己的抽象定义，也提供了内建的支持。我针对Flume、Flink、Storm、Apex以及NiFi的数据流模型作了一个简单的总结。

Flume

Flume的数据流模型是在Agent中由Source、Channel与Sink组成。

内建的Source支持：

Avro
Thrift
JMS
Taildir
Exec
Spooling Directory
Twitter
Kafka
NetCat
Sequence Generator
Syslog
HTTP

内建的Sink支持：

HDFS
Hive
Logger
Avro
Thrift
IRC
File Roll
HBase
Solr
Elasticsearch
Kite Dataset
Kafka
HTTP

Flume还支持自定义Source、Sink与Channel。

Flink

Flink将数据流模型抽象为Connector。Connector将Source与Sink连接起来，一些特殊的connector则只有Source或Sink。Flink定义的connector包括：

Kafka（支持Source/Sink）
Elasticsearch（仅为Sink）
HDFS（仅为Sink）
RabbitMQ（支持Source/Sink）
Amazon Kinesis Streams（支持Source/Sink）
Twitter（仅为Source）
NiFi（支持Sink/Source）
Cassandra（仅为Sink）
Redis、Flume和ActiveMQ（仅为Sink）

Flink也支持用户自定义Connector。

Storm

Storm对数据流模型的抽象则形象地定义为Spout和Bolt。为了支持其他数据源的读取，并将数据存储到指定位置，Storm提供了与诸多外部系统的集成，并针对这些外部系统去定义对应的Spout与Bolt。

Storm集成的外部系统包括：

Kafka：通过BrokerHosts的ZKHosts支持Spout
HBase：提供HBaseBolt
HDFS：提供HdfsBolt
Hive：提供HiveBolt
Solr：提供SolrUpdateBolt与对应的Mapper
Canssandra：提供CassandraWriterBolt
JDBC：提供JdbcInsertBolt与JdbcLookupBolt等
JMS：提供JMS Spout与JMS Bolt
Redis：提供RedisLookupBolt、RedisStoreBolt与RedisFilterBolt等
Event Hubs：提供了Event Hubs Spout
Elasticsearch：提供EsIndexBolt、EsPercolateBolt与EsLookupBolt等
MQTT：MQTT主要用于物联网应用的轻量级发布/订阅协议，提供了对应的Spout
MongoDB：提供了MongoInsertBolt、MongoUpdateBolt
OpenTSDB
Kinesis
Druid
Kestrel

Storm和Storm Trident都支持用户自定义Spout和Bolt。

Apex

Apex将数据流模型称之为Operators，并将其分离出来，放到单独的Apex Malhar中。对于Source，它将其称之为Input Operators，对于Sink，则称为Output Operators，而Comput Operators则负责对流数据的处理。

Apex Malhar支持的Input/Output Operators包括：

文件系统：支持存储到HDFS、S3，也可以存储到NFS和本地文件系统
关系型数据库：支持Oracle、MySQL、Sqlite等
NoSQL数据库：支持HBase、Cassandra、Accumulo、Aerospike、MongoDB和CouchDB
消息系统：支持对Kafka、JMS、ZeroMQ和RabbitMQ消息的读写
通知系统：支持通过SMTP发送通知
内存数据库和缓存：支持Memcached和Redis
社交媒体：支持Twitter
协议：支持HTTP、RSS、Socket、WebSocket、FTP和MQTT

毫无疑问，Apex也支持用户自定义Operator。除了可以用Java编写之外，还可以使用JavaScript、Python、R和Ruby。

NiFi

NiFi对流模型的主要抽象为Processor，并且提供了非常丰富的数据源与数据目标的支持。

常用的数据采集方法包括：

GetFile
GetFtp
GetSFtp
GetJMSQueue
GetJMSTopic
GetHTTP
ListenHTTP
ListenUDP
GetHDFS
ListHDFS / FetchHDFS
FetchS3Objet
GetKafka
GetMongo
GetTwitter

发送数据的方法包括：

PutEmail
PutFile
PutFTP
putSFTP
PutJMS
PutSQL
PutKafka
PutMongo

Nifi也支持用户自定义Processor，例如通过继承NiFi定义的AbstractProcessor类。自定义的Processor可以和内建的Processor一样添加到NiFi定义Flow的GUI上，并对其进行配置。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

大数据流处理平台的技术选型参考