文档备案控制台

开发者社区问答正文

spark消费kafka 从kafka拉取数据部分Task特变慢

项目中使用了sparkStreaming去消费kafka中的数据。

发现了个问题，kafka一共30个分区，会起30个Task去拉取数据。在某些消费批次中会有个别Task从Kafka分区中拉取数据特别慢比别的Task慢了近10倍。直接拖慢了整个处理时间。
但从获取数据的数量上来看并没有发生数据倾斜。处理时间却相差这么多?![P_YP514V_N_KIN5O2CSZQ15](https://yqfile.alicdn.com/16d2d2e8407f593de5ce2cbe73f7e71351fc0f6d.png)

展开

收起

游客tpv44ii4se2r4 2019-06-11 18:36:43 5492 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

阿学

是不是使用$SPARK_HOME/sbin/start-all.sh启动spark集群，慢的那个worker节点是否按照slaves中配置的主机名启动（验证一下是不是按照ip启动，在默认8080端口可以看到），因为一方是主机名集合一方是ip地址集合结果造成字符串比较时找不到，本地化全部变成ANY，也就是随机获取计算节点那就意味着可能要将数据发送到计算节点上，会造成计算不均匀，不是本地化计算，基本上都没有在本机上节点运行，所以会产生大量IO，就会很慢

2020-03-29 22:31:52

赞同展开评论
bigbigtree

确定具体慢的task对应的kafka的分区id，确定分区id所在的物理环境，排查机器是否有问题

2020-03-19 19:59:21

赞同展开评论

问答分类：

消息中间件分布式计算 Kafka Spark 云消息队列 Kafka 版

问答标签：

云消息队列 Kafka 版数据 apache spark数据 apache spark kafka spark云消息队列 Kafka 版云消息队列 Kafka 版spark

问答地址：

开发者社区 > 大数据 > 问答

相关问答

为什么选择从Kafka + Spark Streaming转向Flink？

220

1

0

Spark Structured Streaming 和 Kafka 在数据完整性推理上有何不足？

208

1

0

我公司现在要把azure上的Kafka集群和spark集群迁移到阿里云上能直接通过服务器迁移中心

285

4

0

maxcomputer 提交spark jar 包任务报错： [TASK=564401841

402

2

0

spark写kafka，如何让分区分布均衡呢？

472

1

0

请教一个问题。我在用spark读取hbase数据时，默认是一个regoin一个task。发现有些re

1348

0

0

有大佬知道这是怎么回事么 flink读不到kafka数据

1497

1

0

麻烦问一下，我们现在的架构是希望数据统一从 Kafka 中出，但是又想用 Flink CDC，请问

1203

1

0

请问大家，我怎么根据 Kafka 中的 Debezium 数据在 MySQL 中建库、建表、同步数据

1145

0

0

任务编排里的跨库spark sql 数据加工用不了

832

0

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

QoderWork的Credit是如何计算的？固定Token量吗？如何查看我消耗了多少Token？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

相关文章

私域直播小程序开发：直播推流与WebSocket实时通信实践

从原始AI回答到可分析指标：数据清洗与口径统一流程

RabbitMQ 消息队列实战：交换机、队列与消息转换器全解析（2026 实测）

2026免费BI产品选择指南，真实测评与推荐

乌镇大赛丨5 万奖金已备好！RocketMQ 等你一起打造全新 AI-Native 管控平台

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?