开发者社区 问答 正文

Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search

在SPARK SUMMIT 2017上,Jörg Schad,Distributed Systems Engineer分享了题为《Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search》,就SMACK攻击,Mesos &DC/OS 概述,REAL-TIME TRACKING实例分析等方面的内容做了深入的分析。

https://yq.aliyun.com/download/2258?spm=a2c4e.11154804.0.0.1da06a79oC9KEQ

展开
收起
福利达人 2018-07-30 19:19:33 859 分享 版权
阿里云 AI 助理回答

在SPARK SUMMIT 2017上,Jörg Schad分享的演讲《Powering Predictive Mapping at Scale with Spark, Kafka, and Elastic Search》探讨了如何利用Spark、Kafka和Elastic Search等技术进行大规模预测性地图绘制。虽然您提及的"SMACK攻击"与Mesos似乎与原演讲主题不直接相关,但基于您的提问方向,我们可以聚焦于Spark、Kafka集成的关键点,这些内容在提供的知识库资料中有详细说明。

如何在阿里云E-MapReduce上使用Spark Streaming处理Kafka数据

访问Kerberos安全认证的Kafka集群

  • 非Kerberos Hadoop集群:确保提供kafka_client_jaas.confkrb5.conf文件以完成Kerberos认证。
  • Kerberos Hadoop集群:同样需要上述两个文件,并利用集群间的互信机制。

Spark Streaming配置示例

spark-submit --conf "spark.driver.extraJavaOptions=-Djava.security.auth.login.config={{PWD}}/kafka_client_jaas.conf -Djava.security.krb5.conf={{PWD}}/krb5.conf" \
             --conf "spark.executor.extraJavaOptions=-Djava.security.auth.login.config={{PWD}}/kafka_client_jaas.conf -Djava.security.krb5.conf={{PWD}}/krb5.conf" \
             --files /local/path/to/kafka_client_jaas.conf,/local/path/to/kafka.keytab,/local/path/to/krb5.conf \
             --class xx.xx.xx.KafkaSample \
             --num-executors 2 \
             --executor-cores 2 \
             --executor-memory 1g \
             --master yarn-cluster \
             xxx.jar arg1 arg2 arg3

此命令展示了如何通过spark-submit提交作业时,配置必要的Java选项以支持Kerberos认证,并且指定了执行器资源参数。

Spark SQL访问Kafka

对于Spark SQL,需指定包含Kafka DataSource的JAR包路径,并使用SQL DDL创建表来读取Kafka数据:

create table test_kafka
using loghub
options(
  kafka.bootstrap.servers='...多个Kafka地址...',
  subscribe='test_topic',
  startingoffsets='earliest'
);

接着,您可以执行SQL查询来从test_kafka表中读取消息。

注意事项

  • 确保Hadoop集群节点的/etc/hosts文件包含了Kafka集群各节点的长域名和IP映射。
  • 使用正确的Kerberos配置文件,包括kafka_client_jaas.confkrb5.conf,并正确设置服务主体信息。
  • 在运行Spark应用时,正确指定所有必需的JAR依赖,特别是当涉及到特定的数据源如Kafka时。

以上步骤和注意事项概括了在阿里云E-MapReduce平台上,使用Spark Streaming或Spark SQL对接Kafka进行数据处理的关键流程。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答