spark消费kafka 从kafka拉取数据部分Task特变慢
是不是使用$SPARK_HOME/sbin/start-all.sh启动spark集群,慢的那个worker节点是否按照slaves中配置的主机名启动(验证一下是不是按照ip启动,在默认8080端口可以看到),因为一方是主机名集合一方是ip地址集合结果造成字符串比较时找不到,本地化全部变成ANY,也就是随机获取计算节点那就意味着可能要将数据发送到计算节点上,会造成计算不均匀,不是本地化计算,基本上都没有在本机上节点运行,所以会产生大量IO,就会很慢
赞0
踩0