开发者社区问答正文

Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search

在SPARK SUMMIT 2017上，Jörg Schad,Distributed Systems Engineer分享了题为《Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search》，就SMACK攻击，Mesos &DC/OS 概述，REAL-TIME TRACKING实例分析等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2258?spm=a2c4e.11154804.0.0.1da06a79oC9KEQ

展开

收起

福利达人 2018-07-30 19:19:33 859 版权

阿里云 AI 助理回答

在SPARK SUMMIT 2017上，Jörg Schad分享的演讲《Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search》探讨了如何利用Spark、Kafka和Elastic Search等技术进行大规模预测性地图绘制。虽然您提及的"SMACK攻击"与Mesos似乎与原演讲主题不直接相关，但基于您的提问方向，我们可以聚焦于Spark、Kafka集成的关键点，这些内容在提供的知识库资料中有详细说明。

如何在阿里云E-MapReduce上使用Spark Streaming处理Kafka数据

访问Kerberos安全认证的Kafka集群

非Kerberos Hadoop集群：确保提供kafka_client_jaas.conf和krb5.conf文件以完成Kerberos认证。
Kerberos Hadoop集群：同样需要上述两个文件，并利用集群间的互信机制。

Spark Streaming配置示例

spark-submit --conf "spark.driver.extraJavaOptions=-Djava.security.auth.login.config={{PWD}}/kafka_client_jaas.conf -Djava.security.krb5.conf={{PWD}}/krb5.conf" \
             --conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config={{PWD}}/kafka_client_jaas.conf -Djava.security.krb5.conf={{PWD}}/krb5.conf" \
             --files /local/path/to/kafka_client_jaas.conf,/local/path/to/kafka.keytab,/local/path/to/krb5.conf \
             --class xx.xx.xx.KafkaSample \
             --num-executors 2 \
             --executor-cores 2 \
             --executor-memory 1g \
             --master yarn-cluster \
             xxx.jar arg1 arg2 arg3

此命令展示了如何通过spark-submit提交作业时，配置必要的Java选项以支持Kerberos认证，并且指定了执行器资源参数。

Spark SQL访问Kafka

对于Spark SQL，需指定包含Kafka DataSource的JAR包路径，并使用SQL DDL创建表来读取Kafka数据：

create table test_kafka
using loghub
options(
  kafka.bootstrap.servers='...多个Kafka地址...',
  subscribe='test_topic',
  startingoffsets='earliest'
);

接着，您可以执行SQL查询来从test_kafka表中读取消息。

注意事项

确保Hadoop集群节点的/etc/hosts文件包含了Kafka集群各节点的长域名和IP映射。
使用正确的Kerberos配置文件，包括kafka_client_jaas.conf和krb5.conf，并正确设置服务主体信息。
在运行Spark应用时，正确指定所有必需的JAR依赖，特别是当涉及到特定的数据源如Kafka时。

以上步骤和注意事项概括了在阿里云E-MapReduce平台上，使用Spark Streaming或Spark SQL对接Kafka进行数据处理的关键流程。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

消息中间件分布式计算 Kafka Spark 检索分析服务 Elasticsearch版云消息队列 Kafka 版高速通道

问答标签：

apache spark kafka spark云消息队列 Kafka 版云消息队列 Kafka 版elasticsearch kafka检索分析服务 Elasticsearch版 at检索分析服务 Elasticsearch版

问答地址：

开发者社区 > 大数据 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料