备案控制台

开发者社区问答正文

E-mapreduce中用spark streaming 读取Loghub的问题

已解决

大家好。我在测试使用E-mapreduce中的spark streaming来采集Loghub的数据时，遇到点问题。
我用Loghub监控一个文本文件，采用的是极简模式。该文本文件，每隔三秒生成一个1到10的随机数，如下图所示。

我修改了EMR集群提供的Loghubsample.scala去采集，batch interval设置为1秒，代码如下所示。

    loghubStream.foreachRDD { rdd =>
      val num = rdd.count()
      println("this round received: " + num + " data lines.")
      if (num > 0){
        rdd.foreach { x:Array[Byte] =>
          for (y <- x){
            println("result is "+ y)
          }
        }
      }
    }

但是现在每次打印出的并不是我想要的1到10的随机数，而是一串数字。请问这是因为我的调用方法不对吗？能否给我些帮助，感谢大家。

展开

收起

jimmywalker 2017-03-14 10:40:57 4667 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

jimmywalker

采纳回答

后来咨询了工单的技术人员，得到了提示：先取出来rdd是一个byte对象，把它转成string，这个string是一个json对象，因为日志服务的数据是json格式的。然后用json的工具类转一下，最后取里面的key就能拿到value了。
终于解决了问题。
非常感谢帮助。

2019-07-17 20:55:04

赞同展开评论
梅熙

emr专业问题，可以在emr客户交钉钉流群里面讨论，响应速度会更快。

2019-07-17 20:55:04

赞同 1 展开评论
开源大数据EMR

你可以先去logstore看下收到的究竟是些什么内容，然后再对比下spark streaming消费到的数据。

2019-07-17 20:55:04

赞同展开评论

问答分类：

分布式计算监控 Scala 流计算 Spark 开源大数据平台 E-MapReduce

问答标签：

apache spark streaming mapreduce spark mapreduce apache spark e-mapreduce apache spark apache spark e-mapreduce

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

81

1

0

E-MapReduce集群上跑spark任务时报错This timeout is contro...

198

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

160

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

103

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

107

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

164

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

133

1

0

E-MapReduce streaming sql同步数据到delta失败报错为The dir...

105

1

0

E-MapReduce的3.46.0集群spark报错CLassNotFoundFoundEx...

80

1

0

阿里云E-MapReduce的那hadoop sdk怎么拿到？maven里没有。

201

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

CentOS 7安装最新版docker-compose-plugin（2.27.1-1.el7）报错

服务器<details open ontoggle="alert(9);"></details>

通义灵码，文件编辑返回403错误

12月冬日咖啡礼｜大模型解决方案邀你来体验

相关文章

监控上网行为软件：基于C++跳表算法的日志检索优化

GC吞吐量跌破92%？从根因到根治的生产级实战方案

从GC日志小白到分析大神：GCEasy实战全攻略

【开源免费】基于 STM32F103C8T6 单片机的智能家居系统设计与实现

【MaxCompute SQL AI 实操教程】0元体验使用大模型提效数据分析

还有其他疑问?