好好学习天天向上_个人页

好好学习天天向上

文章

问答

视频

个人介绍

暂无个人介绍

擅长的技术

获得更多能力

通用技术能力：

暂时未有相关通用技术能力~

云产品技术能力：

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明

高分内容

最新动态

文章
问答
视频

暂无更多信息

正在加载, 请稍后...

暂无更多信息

回答了问题 2020-03-06

各位大佬，flink任务的并发数调大到160+以后，每隔几十分钟就会出现一次TM节点连接丢失的异常，

原因不确定，可能有的原因有：（1）内存用超了OOM挂掉了；（2）内存用多了被yarn的nodemanager给killed了，可以看看nodemanger的日志；（3）内存不太够，在做GC耗时较长卡住了，可以看看TM的gc日志；（4）网络抖动，可以尝试把timeout时间调长，taskmanager.network.netty.client.connectTimeoutSec=1800；（5）其他原因。

赞0 踩0 评论0
回答了问题 2020-03-06

请问一下各位大佬，java 写的flink程序提交到yarn集群，application name都

可以试试在提交的时候加上名称： ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); env.execute('tablejoindemo');

赞0 踩0 评论0
回答了问题 2020-03-06

flink TaskManager启动不了

The required configuration option Key: 'taskmanager.cpu.cores' , default: null (fallback keys: []) is not set taskmanager.cpu.cores这个参数要在配置文件中配置一个正值。

赞0 踩0 评论1
回答了问题 2020-03-06

对于spark处理小文件，有没有什么优化方法

为了避免启动很多task，每个task又执行时间很短，运行时间比低，可以尝试让每个task处理多个小文件，把每个split包含多少文件数的参数调大。

赞0 踩0 评论0
回答了问题 2020-03-06

Spark为什么比mapreduce快？

除了设计理念和架构层面（内存计算和DAG），spark在后续的优化过程中不断进行优化，比如专门启动了一个钨丝计划（tungsten），钨丝计划主要涉及三块：（1）Memory Management and Binary Processing，（2）Cache-aware computation，（3）Code generation，可以查看blog：https://databricks.com/glossary/tungsten

赞0 踩0 评论0
回答了问题 2020-03-04

问个问题：在 SQL 和流处理方面，Flink 和 Spark 是不分伯仲的。在图计算

阿里开源的Alink，同时社区正在发展flink上图计算框架Gelly。

赞0 踩0 评论0
回答了问题 2020-03-04

Spark Shuffle 的调优点

还可以开启压缩，选择压缩算法。还有设置多少个spill文件开始进行merge。

赞0 踩0 评论0
回答了问题 2020-03-04

spark 和 storm 的区别？

storm是经典的流计算框架，特别是对一条一条数据pipeline的计算非常适合。Spark不光能进行批计算，也就是像MapReduce那样对大量数据进行批量计算，也能进行流计算，不过spark streaming处理逻辑是微批或者叫小批，一次处理几条数据，以这种方式来实现流计算，但是对于一条一条或者一次很少量数据，不太适合。

赞0 踩0 评论0
回答了问题 2020-03-04

spark 和 mapreduce 的对比

Spark和MR是不同的计算框架，业界通俗的说法是Spark是MR之后的第二代大数据计算框架。MR是一个stage的计算过程：map->reduce，应用在机器学习领域需要不断的迭代，会有很多个MR job连接起来成为DAG，这样job与job之间的数据通过HDFS来中转，这个过程比较慢，Spark应运而生。Spark最初对比MR优点是内存计算和DAG，map和reduce之间使用内存来shuffle数据，stage与stage之间使用内存来中转数据，这样在机器学习领域性能提升很多。随着Spark的发展，Spark不光能应用在批处理，还能应用于流处理，而MR只能用于批处理。

赞0 踩0 评论0
回答了问题 2020-03-04

将flink升级到1.10后启动不了，报如下：

不知道你这个是不是使用的默认配置，内存配置不匹配，总Flink内存才224MB，但是里面分配的各个内存加起来超过这个内存了，要把里面的各个内存调小点。可以查看1.10文档里有各个内存的配置项。

赞0 踩0 评论0
回答了问题 2020-03-03

hadoop可以同时oss和hdfs吗

可以的。不过有一些前提条件，hadoop集群的节点要能网络连通oss也就是MR运行起来的task要能读取到oss的数据；MR任务中map/reduce函数中要自己写读取oss数据的代码，hadoop本身没有自带读取oss；MR运行的task不同task读取oss的不同数据，如果读取的是相同的数据，可以使用hadoop自带的distributedcache功能来实现。

赞0 踩0 评论0
回答了问题 2020-03-03

我本人是塑胶模具厂的，最近学习了hadoop ，也建立的环境，如何建立大数据管理工厂，如何规划

如果是想实际使用的集群的话，一般采用7台服务器就可以：4台datanode(因为数据存储三副本容错)可以同时跑nodemanager+1台resourcemanager/或者jobtracker用来做计算的master+1台namenode用来做存储的master+1台secondarynamenode用来做存储的冷备master。另外找一台比较差的机器作为任务提交机器和admin操作机。服务器的操作系统可以选择多个发行版，centos可以。磁盘不需要做raid，因为hadoop本身存储层有三副本容灾，节点上磁盘做raid会浪费。网络局域网连接就可以。

赞0 踩0 评论0
回答了问题 2020-03-03

什么样的应用场景要用到Hadoop？

如果数据量小的话一般不需要使用hadoop，现在关系型数据库越来越强大，再加上把机器配置提高，RDMS就更强大了，现在分布式数据库的产品越来越多，阿里云上就有分布式数据库产品可以使用。如果存储的数据很多（几百T以上）而且还要保存历史数据，再加上要对这些数据进行很多分析，一般使用hadoop比较合适，hadoop集群的节点可以比RDMS使用的机器配置差，搭建成集群之后，使用分布式的方法，让每个节点同时干活，就比较适合分析大量数据。

赞0 踩0 评论0
回答了问题 2020-03-03

hadoop下线一个节点，整个集群就卡，怎么处理呢，能动态下线限速吗？

hadoop下线节点一般采用退役流程decommission，一般不直接把节点上nodemanager或者datanode进程暴力停掉，为了是让数据和任务迁移，特别是数据，所以一般对于datanode一定要采用退役过程。DataNode退役过程启动的时候，虽然新的数据块写入不会再写到这个datanode，但是这台datanode上的数据块要拷贝到别的datanode上，当集群比较小的时候，而且这台datanode上的数据块又很多的时候，拷贝数据块的过程占用集群带宽，其他的datanode节点还会不断的向namenode汇报meta，所以这个过程会导致集群比较卡。针对这个过程，下线之前，可以先删除一部分不用的hdfs文件减少数据块；dfs.max-repl-streams（默认2）配置选项会对datanode下线时每个datanode同时能够进行多少个block的并行拷贝进行控制，可以配置少点。

赞0 踩0 评论0
回答了问题 2020-03-03

同步hadoop配置文件通常怎么做？

可以找一个admin中控机，最好是设置成可以免密登陆到hadoop集群上每个节点，然后使用这台中控机把hadoop配置文件scp到每个节点。或者把hadoop配置文件上传到一个共享存储，比如oss，然后hadoop集群每个节点都从共享存储上下载配置文件。

赞0 踩0 评论0
回答了问题 2020-03-02

Hadoop MapReduce如何工作？

主要有几个计算过程： map：数据映射，对数据进行清洗过滤和格式化；map的函数是程序编写； combiner：可选，成为map本地的reduce，对map本地端的数据进行局部聚合；函数自己编写或者直接使用reduce函数； shuffle：这个是mapreduce框架自带，主要负责数据从map分发给reduce任务； reduce：数据聚合。

赞0 踩0 评论0
回答了问题 2020-03-02

Hadoop-在另一个Reduce的输出文件上运行Reduce？

但是我不知道如何在以前的reduce作业的输出上运行reduce作业。—— 第一个job会配置输出目录，一般是在hdfs上，这个目录就是这个job的输出。第二个job把第一个job的输出目录作为第二个job的输入目录配置，第二个job就会读取这个目录下的文件来执行，结果再输出到另外一个目录。第二个job的处理逻辑就是max。

赞0 踩0 评论0
回答了问题 2020-03-02

正常工作的hadoop集群中hadoop都分别需要启动那些进程，他们的作用分别是什么，

对于yarn模式下：还有resourcemanager：负责节点管理，资源管理和调度，app管理等。 nodemanager：负责task的container启动，里面还有mapreduce托管的shuffle service管理shuffle数据。

赞0 踩0 评论0
回答了问题 2020-03-02

搭建 hadoop 集群， master 和 slaves 都运行哪些服务

对于计算层：如果是standalone模式，master有jobtracker，slave有taskmanagre；如果是yarn模式，master有resourcemanager，slave有nodemanager。对于存储层： master有namenode，slave有datanode，master还有另外一个secondary namenode也算。

赞0 踩0 评论0
回答了问题 2020-03-02

hadoop中combiner的作用是什么？

可以举个简单的例子来解释下。比如wordcount程序，对这样的语句'daddy finger, daddy finger, where are you, here I am, here I am, how do you do'进行workcount。有两个map分别处理三个短句，map1的输出结果是：；map2的输出结果是：。有一个reduce来处理count操作。如果不采用combiner的话，总共有17条记录传递给reduce task。如果采用combiner的话，combiner会对map task本地端的结果进行combine操作（这里是wordcount），这样map端的数据结果就是combiner之后的结果，比如map1的输出结果就变成；map2的输出结果就变成。这样总共有11条记录传递给reduce task，比之前的少。所以combier主要目的是减少map输出。

赞0 踩0 评论0

正在加载, 请稍后...

滑动查看更多

正在加载, 请稍后...

暂无更多信息

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

好好学习天天向上_个人页

个人介绍

擅长的技术

各位大佬，flink任务的并发数调大到160+以后，每隔几十分钟就会出现一次TM节点连接丢失的异常，

请问一下各位大佬，java 写的flink程序提交到yarn集群，application name都

flink TaskManager启动不了

对于spark处理小文件，有没有什么优化方法

Spark为什么比mapreduce快？

问个问题： 在 SQL 和 流处理 方面，Flink 和 Spark 是 不分伯仲的。 在 图计算

Spark Shuffle 的调优点

spark 和 storm 的区别？

spark 和 mapreduce 的对比

将flink升级到1.10后启动不了，报如下：

hadoop可以同时oss和hdfs吗

我本人是塑胶模具厂的，最近学习了hadoop ， 也建立的环境， 如何建立大数据管理工厂，如何规划

什么样的应用场景要用到Hadoop？

hadoop下线一个节点，整个集群就卡，怎么处理呢，能动态下线限速吗？

同步hadoop配置文件通常怎么做？

Hadoop MapReduce如何工作？

Hadoop-在另一个Reduce的输出文件上运行Reduce？

正常工作的hadoop集群中hadoop都分别需要启动那些进程，他们的作用分别是什么，

搭建 hadoop 集群 ， master 和 slaves 都运行哪些服务

hadoop中combiner的作用是什么？

问个问题：在 SQL 和流处理方面，Flink 和 Spark 是不分伯仲的。在图计算

我本人是塑胶模具厂的，最近学习了hadoop ，也建立的环境，如何建立大数据管理工厂，如何规划

搭建 hadoop 集群， master 和 slaves 都运行哪些服务