大数据平台的毕业设计02:Spark与实时计算

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 大数据平台的毕业设计02:Spark与实时计算

Spark、Kafka - 实时计算

现在提到实时计算,可能大家首先会想到flink。的确,flink在开源实时领域方面绝对算是TOP了。18年的时候,实时处理还是SparkStreaming应用的比较广泛。所以当时我安装的是Spark集群,来模拟的实时计算。

其实Spark/flink集群都是可以不搭建的,在Spark集群上运行程序属于standlone模式,如果使用yarn模式只需要有客户端就可以了。Spark程序运行在yarn上,能对cpu和内存进行资源隔离,而且不需要要单独维护一个Spark集群。

而作为实时处理配套,Kafka和Rabbitmq之间我还是倾向于Kafka。在Kafka搭建之前,先搭建zookeeper集群,zk是kafka的依赖组件,用来记录一些元数据。

下图命令操作就是消费写入Kafka的数据。

image.png

我们要做的就是将数据库/数据仓库中的离线数据,转换为数据流(Data Stream),作为生产者实时写入到Kafka中。

我们开发的Spark/flink程序作为消费者实时读取Kafka中的数据,实时处理并数据计算结果。如下图,为SparkStreaming的程序监控页面。

image.png

image.png

image.png

SparkStreming程序,可以使用Java、Scala、Python开发,但是选择Scala比较好一些。一是Scala的语法结构更贴合流式处理,二是源码都是Scala写的。

Flume - 数据交换神器

当初刚接触Flume的时候,真的没玩明白,云里雾里的。后来深入研究了一下之后,数据在oracle、MySQL、Kafka、HDFS以及其他存储平台上,就可以进行同步。不过MySQL和oracle需要自己定义Source和Sink。

Flume的简单之处在于配置化。当初我将数据从MySql抽取到Kafka,部分配置如下。

image.png

顺带一提,在大数据量的情况下,Flume很多参数还是需要调的。当初我将1W亿/天的数据从Kafka落地到HDFS的时候,写了几千行的配置,调了很多参数。

3. 数据展示

最后就是前台的数据展示了,使用了Springboot和Vue做了一个POI数据管理系统。主要实现分类查询和POI搜索标点地图展示功能。

但是这个系统,我只找到了登录页面和地图搜索标点的截图了....

image.png

image.png

数据管理系统发挥的空间还是挺多的,比如页面样式的优化,再比如前台可以使用Node + Vue,后端使用Springboot来实现前后端分离架构。

结语

主要是给大家提供一个大数据平台毕业设计的基本思路,很多细节的地方还可以优化。我们也不难发现,这里的大数据集群都是独立安装的,我们同样可以使用Ambari进行统一的安装、管理、启动、状态监控。

最近也是在研究Ambari,前几周刚花了一个星期,完成了Ambari2.7.5的编译安装工作。后期的目标是配合docker在一台机器上完成大数据集群的搭建工作,当然这里主要是玩,构建测试环境,性能啥的就不要考虑了哈。

忙完这一阵,完成Scrapy系列文章,就开始着手准备大数据平台系列文章的编写。期待下一次相遇。


相关文章
|
4天前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
22 0
|
3天前
|
分布式计算 监控 大数据
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
大数据-148 Apache Kudu 从 Flink 下沉数据到 Kudu
18 1
|
1天前
|
SQL 分布式计算 大数据
大数据平台的毕业设计01:Hadoop与离线分析
大数据平台的毕业设计01:Hadoop与离线分析
|
3天前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
38 0
|
4天前
|
SQL 大数据 API
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
大数据-132 - Flink SQL 基本介绍 与 HelloWorld案例
14 0
|
4天前
|
SQL 消息中间件 分布式计算
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
大数据-130 - Flink CEP 详解 - CEP开发流程 与 案例实践:恶意登录检测实现
13 0
|
4天前
|
分布式计算 监控 大数据
大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理
大数据-129 - Flink CEP 详解 Complex Event Processing - 复杂事件处理
16 0
|
4天前
|
消息中间件 分布式计算 大数据
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
大数据-128 - Flink 并行度设置 细节详解 全局、作业、算子、Slot
24 0
|
4天前
|
存储 SQL 分布式计算
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
大数据-127 - Flink State 04篇 状态原理和原理剖析:状态存储 Part2
8 0
|
4天前
|
存储 消息中间件 大数据
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
大数据-126 - Flink State 03篇 状态原理和原理剖析:状态存储 Part1
14 0