【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！-阿里云开发者社区

【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！

2022-06-11 518

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

注册配置 MSE Nacos/ZooKeeper，118元/月

云原生网关 MSE Higress，422元/月

简介： 【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！

文章目录

一、前言

二、项目准备

2.1 添加Kafka的pom依赖

2.2 启动zookeeper集群

2.3 启动kafka集群

2.4 创建topic

2.5 向topic中生产数据

三、KafkaUtils.createDstream

3.1 原理

3.2 实战

四、KafkaUtils.createDirectStream

4.1 原理

4.2 实战

4.3 结果展示

一、前言

首先，我们先来简单的了解下 Kafka：是一种高吞吐量的分布式发布订阅消息系统。依赖Zookeeper，因此搭建Kafka的时候需要事先搭建好Zookeeper。对 Kafka 还不太了解的同学，可以看云祁 Kafka 专栏的博客，一定会有收获的嗷 🦄 ！

Kafka 的体系结构如下：

作为一个实时的分布式消息队列，实时的生产和消费消息，我们可以利用 Spark Streaming 实时计算框架实时地读取 Kafka 中的数据然后进行计算。在 Spark1.3 版本后，kafkaUtils 里面提供了两个创建 DStream 的方法，一种为KafkaUtils.createDstream，另一种为KafkaUtils.createDirectStream。

二、项目准备

2.1 添加Kafka的pom依赖

由于 Spark Streaming 与 Kafka 做集成的时候 Kafka 成了 Streaming 的高级数据源，两者集成时依赖的 jar 包比较多，而且还会产生冲突，我选择用 Maven 来搭建项目工程。

pom文件如下：

<dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.3.4</version>
    </dependency>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>2.11.8</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version>2.3.4</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming_2.11</artifactId>
      <version>2.3.4</version>
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-streaming-kafka-0-8_2.11</artifactId>
      <version>2.1.1</version>
    </dependency>
  </dependencies>

2.2 启动zookeeper集群

zkServer.sh start

2.3 启动kafka集群

kafka-server-start.sh /opt/soft/kafka211/config/server.properties

2.4 创建topic

kafka-topics.sh --create --zookeeper 192.168.56.137:2181 --topic kafka_spark --replication-factor 1 --partitions 1

2.5 向topic中生产数据

通过shell命令向topic发送消息

kafka-console-producer.sh --broker-list 192.168.56.137:9092 --topic kafka_spark

Spark Streaming 读取 Kafka 数据源由两种模式，我会逐一讲解。

三、KafkaUtils.createDstream

3.1 原理

构造函数为KafkaUtils.createDstream(ssc,[zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据，利用的是Kafka高层次的消费者api，对于所有的receivers接收到的数据将会保存在Spark executors中，然后通过Spark Streaming启动job来处理这些数据，默认会丢失，可启用WAL日志，它同步将接受到数据保存到分布式文件系统上比如HDFS。所以数据在出错的情况下可以恢复出来。

1.创建一个receiver来对kafka进行定时拉取数据，ssc的rdd分区和kafka的topic分区不是一个概念，故如果增加特定主消费的线程数仅仅是增加一个receiver中消费topic的线程数，并不增加spark的并行处理数据数量。

2.对于不同的group和topic可以使用多个receivers创建不同的DStream。

3.如果启用了WAL(spark.streaming.receiver.writeAheadLog.enable=true)

，同时需要设置存储级别(默认StorageLevel.MEMORY_AND_DISK_SER_2)，即KafkaUtils.createStream(….,StorageLevel.MEMORY_AND_DISK_SER)。

3.2 实战

KafkaUtils.createDstream方式（基于kafka高级API ----- 偏移量由zk保存）

package cn.testdemo.dstream.kafka
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.kafka.KafkaUtils
import scala.collection.immutable
//todo:利用sparkStreaming对接kafka实现单词计数----采用receiver(高级API)
object SparkStreamingKafka_Receiver {
  def main(args: Array[String]): Unit = {
      //1、创建sparkConf
      val sparkConf: SparkConf = new SparkConf()
        .setAppName("SparkStreamingKafka_Receiver")
        .setMaster("local[2]")
        .set("spark.streaming.receiver.writeAheadLog.enable","true") //开启wal预写日志，保存数据源的可靠性
      //2、创建sparkContext
      val sc = new SparkContext(sparkConf)
      sc.setLogLevel("WARN")
      //3、创建StreamingContext
      val ssc = new StreamingContext(sc,Seconds(5))
    //设置checkpoint
      ssc.checkpoint("./Kafka_Receiver")
    //4、定义zk地址
    val zkQuorum="node-1:2181,node-2:2181,node-3:2181"
    //5、定义消费者组
    val groupId="spark_receiver"
    //6、定义topic相关信息 Map[String, Int]
    // 这里的value并不是topic分区数，它表示的topic中每一个分区被N个线程消费
    val topics=Map("kafka_spark" -> 2)
    //7、通过KafkaUtils.createStream对接kafka
    //这个时候相当于同时开启3个receiver接受数据
    val receiverDstream: immutable.IndexedSeq[ReceiverInputDStream[(String, String)]] = (1 to 3).map(x => {
      val stream: ReceiverInputDStream[(String, String)] = KafkaUtils.createStream(ssc, zkQuorum, groupId, topics)
      stream
      }
    )
    //使用ssc.union方法合并所有的receiver中的数据
      val unionDStream: DStream[(String, String)] = ssc.union(receiverDstream)
    //8、获取topic中的数据
    val topicData: DStream[String] = unionDStream.map(_._2)
    //9、切分每一行,每个单词计为1
    val wordAndOne: DStream[(String, Int)] = topicData.flatMap(_.split(" ")).map((_,1))
    //10、相同单词出现的次数累加
    val result: DStream[(String, Int)] = wordAndOne.reduceByKey(_+_)
    //11、打印输出
    result.print()
    //开启计算
    ssc.start()
    ssc.awaitTermination()
  }
}

总结:

通过这种方式实现，刚开始的时候系统正常运行，没有发现问题，但是如果系统异常重新启动sparkstreaming程序后，发现程序会重复处理已经处理过的数据，这种基于receiver的方式，是使用Kafka的高阶API来在ZooKeeper中保存消费过的offset的。这是消费Kafka数据的传统方式。这种方式配合着WAL机制可以保证数据零丢失的高可靠性，但是却无法保证数据被处理一次且仅一次，可能会处理两次。因为Spark和ZooKeeper之间可能是不同步的。官方现在也已经不推荐这种整合方式，官网相关地址下面我们使用官网推荐的第二种方式kafkaUtils的createDirectStream()方式。

四、KafkaUtils.createDirectStream

4.1 原理

不同于Receiver接收数据，这种方式定期地从kafka的topic下对应的partition中查询最新的偏移量，再根据偏移量范围在每个batch里面处理数据，Spark通过调用kafka简单的消费者API读取一定范围的数据。

相比基于Receiver方式有几个优点：

简化并行

不需要创建多个kafka输入流，然后union它们，sparkStreaming将会创建和kafka分区一种的rdd的分区数，而且会从kafka中并行读取数据，spark中RDD的分区数和kafka中的分区数据是一一对应的关系。

高效

第一种实现数据的零丢失是将数据预先保存在WAL中，会复制一遍数据，会导致数据被拷贝两次，第一次是被kafka复制，另一次是写到WAL中。而没有receiver的这种方式消除了这个问题。

恰好一次语义(Exactly-once-semantics)

Receiver读取kafka数据是通过kafka高层次api把偏移量写入zookeeper中，虽然这种方法可以通过数据保存在WAL中保证数据不丢失，但是可能会因为sparkStreaming和ZK中保存的偏移量不一致而导致数据被消费了多次。EOS通过实现kafka低层次api，偏移量仅仅被ssc保存在checkpoint中，消除了zk和ssc偏移量不一致的问题。缺点是无法使用基于zookeeper的kafka监控工具

4.2 实战

package cn.itcast.dstream.kafka
import kafka.serializer.StringDecoder
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.{DStream, InputDStream}
import org.apache.spark.streaming.kafka.KafkaUtils
//todo:利用sparkStreaming对接kafka实现单词计数----采用Direct(低级API)
object SparkStreamingKafka_Direct {
    def main(args: Array[String]): Unit = {
      //1、创建sparkConf
      val sparkConf: SparkConf = new SparkConf()
        .setAppName("SparkStreamingKafka_Direct")
        .setMaster("local[2]")
      //2、创建sparkContext
      val sc = new SparkContext(sparkConf)
      sc.setLogLevel("WARN")
      //3、创建StreamingContext
      val ssc = new StreamingContext(sc,Seconds(5))
      //4、配置kafka相关参数
      val kafkaParams=Map("metadata.broker.list"->"node-1:9092,node-2:9092,node-3:9092","group.id"->"Kafka_Direct")
      //5、定义topic
      val topics=Set("kafka_spark")
      //6、通过 KafkaUtils.createDirectStream接受kafka数据，这里采用是kafka低级api偏移量不受zk管理
        val dstream: InputDStream[(String, String)] = 
        KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics)
      //7、获取kafka中topic中的数据
        val topicData: DStream[String] = dstream.map(_._2)
      //8、切分每一行,每个单词计为1
        val wordAndOne: DStream[(String, Int)] = topicData.flatMap(_.split(" ")).map((_,1))
      //9、相同单词出现的次数累加
        val result: DStream[(String, Int)] = wordAndOne.reduceByKey(_+_)
      //10、打印输出
        result.print()
      //开启计算
        ssc.start()
        ssc.awaitTermination()
  }
}

4.3 结果展示

-------------------------------------------
Time: 1536325032000 ms
-------------------------------------------
(love,1)
(Beijing,1)
(I,1)
-------------------------------------------
Time: 1536325035000 ms
-------------------------------------------
(love,2)
(Beijing,1)
(I,2)
(Shanghai,1)
-------------------------------------------
Time: 1536325038000 ms
-------------------------------------------
(love,2)
(Beijing,1)
(I,2)
(Shanghai,1)
-------------------------------------------
Time: 1536325041000 ms
-------------------------------------------
(love,2)
(Beijing,1)
(I,2)
(Shanghai,1)

【Spark Streaming】（五）Spark Streaming 与 Kafka 集成实战！

文章目录

一、前言

二、项目准备

2.1 添加Kafka的pom依赖

2.2 启动zookeeper集群

2.3 启动kafka集群

2.4 创建topic

2.5 向topic中生产数据

三、KafkaUtils.createDstream

3.1 原理

3.2 实战

四、KafkaUtils.createDirectStream

4.1 原理

4.2 实战

4.3 结果展示

热门文章

最新文章

相关课程

相关电子书

相关实验场景