游客z26npzhujwpdw_高分内容_个人页-阿里云开发者社区

回答了问题 2019-10-30

Spark中数据的位置是被谁管理的？

每个数据分片都对应具体物理位置，数据位置是由blockManager管理，无论数据是在磁盘，内存还是tacyan，都由blockManager管理。

赞0 踩0 评论0

回答了问题 2019-10-30

Spark中的4040端口由什么功能?

application的webUI的端口号，4040端口显示的是正在运行的spark任务，一旦任务运行完成或者没有任务运行，4040端口是无法访问的

赞0 踩0 评论0

回答了问题 2019-10-30

Spark on Yarn 模式有哪些优点？

1.部署Application和服务更加方便只需要yarn服务，包括Spark，Storm在内的多种应用程序不要要自带服务，它们经由客户端提交后，由yarn提供的分布式缓存机制分发到各个计算节点上。 2.资源隔离机制 yarn只负责资源的管理和调度，完全由用户和自己决定在yarn集群上运行哪种服务和Applicatioin，所以在yarn上有可能同时运行多个同类的服务和Application。Yarn利用Cgroups实现资源的隔离，用户在开发新的服务或者Application时，不用担心资源隔离方面的问题。 3.资源弹性管理 Yarn可以通过队列的方式，管理同时运行在yarn集群种的多个服务，可根据不同类型的应用程序压力情况，调整对应的资源使用量，实现资源弹性管理。

赞0 踩0 评论0

回答了问题 2019-10-30

Spark Streaming和Storm有何区别？

SparkStreaming的吞吐量非常高，秒级准实时处理，Storm是容错性非常高，毫秒级实时处理具体来说：sparkStreaming是一次处理某个间隔的数据，比如5秒内的数据，批量处理，所以吞吐量高。Storm是来一条处理一条，所以速度快，不存在丢失数据。应用场景：对于数据非常重要不能丢失数据的，不能有延迟的，比如股票，金融之类场景的使用Storm。对于没那么高精度，但是要处理大量的数据，可以用sparkSremaing。

赞0 踩0 评论0

回答了问题 2019-10-30

Hadoop高并发？

hadoop适合离线分析，不适合实时性要求高的系统。高并发的话，基本就是做好负载均衡，服务器可采用nginx，再用内存数据库对热点做缓存，比如memcached。

赞0 踩0 评论0

回答了问题 2019-10-30

Hadoop性能调优？

1)操作系统调优 Hadoop的运行环境，硬件配置起得至关重要的作用，硬件的参数配置对性能影响非常大，在部署Hadoop时，合理的硬件选择是一种优化思路。 (2)从应用程序角度进行优化。由于mapreduce是迭代逐行解析数据文件的，怎样在迭代的情况下，编写高效率的应用程序，是一种优化思路。 (3)对Hadoop参数进行调优。当前hadoop系统有190多个配置参数，怎样调整这些参数，使hadoop作业运行尽可能的快，也是一种优化思路。 (4)从系统实现角度进行优化。这种优化难度是最大的，它是从hadoop实现机制角度，发现当前Hadoop设计和实现上的缺点，然后进行源码级地修改。该方法虽难度大，但往往效果明显。

赞0 踩0 评论0

回答了问题 2019-10-30

简单说一下hadoop和spark的shuffle过程？

Hadoop 2.7.x Shuffle过程是sort-based过程，在shuffle过程中会发生排序行为； Spark 2.2.x Spark ShuffleManager 分为HashShuffleManager和SortShuffleManager。Spark 1.2后默认为SortShuffleManager，在普通模式下，shuffle过程中会发生排序行为；Spark可以根据业务场景需要进行ShuffleManager选择--Hash Shuffle Manager / Sort ShuffleManager（普通模式和bypass模式）。 Hadoop Shuffle过程总共会发生3次排序行为，详细分别如下：第一次排序行为：在map阶段，由环形缓冲区溢出到磁盘上时，落地磁盘的文件会按照key进行分区和排序，属于分区内有序，排序算法为快速排序；第二次排序行为：在map阶段，对溢出的文件进行combiner合并过程中，需要对溢出的小文件进行归并排序、合并，排序算法为归并排序；第三次排序行为：在reduce阶段，reducetask将不同maptask端文件拉去到同一个reduce分区后，对文件进行合并，归并排序，排序算法为归并排序； Spark Shuffle过程在满足Shuffle Manager为SortShuffleManager，且运行模式为普通模式的情况下才会发生排序行为，排序行为发生在数据结构中保存数据内存达到阈值，在溢出磁盘文件之前会对内存数据结构中数据进行排序； Spark中Sorted-Based Shuffle在Mapper端是进行排序的，包括partition的排序和每个partition内部元素进行排序。但是在Reducer端没有进行排序，所以job的结果默认情况下不是排序的。 Sorted-Based Shuffle 采用Tim-Sort排序算法，好处是可以极为高效的使用Mapper端的排序成果完成全局排序。

赞0 踩0 评论0

回答了问题 2019-10-30

hadoop和spark的都是并行计算，那么他们有什么相同和区别？

解决问题的层面不一样：首先，Hadoop和Apache Spark两者都是大数据框架，但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。同时，Hadoop还会索引和跟踪这些数据，让大数据处理和分析效率达到前所未有的高度。Spark，则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。这两者可合可分，Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外，还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark，使用Hadoop自身的MapReduce来完成数据的处理。相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，毕竟它没有提供文件管理系统，所以，它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的，毕竟，大家都认为它们的结合是最好的。

赞0 踩0 评论0

回答了问题 2019-10-30

RDD机制？

Spark 的核心是建立在统一的抽象 RDD 之上，基于 RDD 的转换和行动操作使得 Spark 的各个组件可以无缝进行集成，从而在同一个应用程序中完成大数据计算任务。在实际应用中，存在许多迭代式算法和交互式数据挖掘工具，这些应用场景的共同之处在于不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。而 Hadoop 中的 MapReduce 框架都是把中间结果写入到 HDFS 中，带来了大量的数据复制、磁盘 IO 和序列化开销，并且通常只支持一些特定的计算模式。而 RDD 提供了一个抽象的数据架构，从而让开发者不必担心底层数据的分布式特性，只需将具体的应用逻辑表达为一系列转换处理，不同 RDD 之间的转换操作形成依赖关系，可以实现管道化，从而避免了中间结果的存储，大大降低了数据复制、磁盘 IO 和序列化开销。一个 RDD 就是一个分布式对象集合，提供了一种高度受限的共享内存模型，其本质上是一个只读的分区记录集合，不能直接修改。每个 RDD 可以分成多个分区，每个分区就是一个数据集片段，并且一个 RDD 的不同分区可以保存到集群中不同的节点上，从而可以在集群中的不同节点上进行并行计算。 RDD 提供了一组丰富的操作以支持常见的数据运算，分为“行动”（Action）和“转换”（Transformation）两种类型，前者用于执行计算并指定输出的形式，后者指定 RDD 之间的相互依赖关系。RDD 提供的转换接口都非常简单，都是类似 map 、filter 、groupBy 、join 等粗粒度的数据转换操作，而不是针对某个数据项的细粒度修改。因此，RDD 比较适合对于数据集中元素执行相同操作的批处理式应用，而不适合用于需要异步、细粒度状态的应用，比如 Web 应用系统、增量式的网页爬虫等。

赞0 踩0 评论0

回答了问题 2019-10-30

请问pytorch torchvision. transforms里的处理函数的处理效果图怎么查看？

可以将处理的效果图对应的tensor直接从GPU转换到CPU，然后通过numpy保存成本地图片进行查看。

赞0 踩0 评论0

回答了问题 2019-10-30

pytorch模型预测这一步出现这个报错，请问有人知道咋解决吗

出现这种问题往往因为你的输入tensor的height和width与网络默认的height和width不一致所导致。例如inception网络经常会出现此问题。

赞0 踩0 评论0

回答了问题 2019-10-30

大数据

Java编程编程是大数据开发的基础，大数据中很多技术都是使用Java编写的，例如Hadoop、Spark、MapReduce等，因此，想要学大数据，Java编程是必备技能之一 Linux 运维企业大数据开发往往是在Linux操作系统下完成的，因此，想从事大数据相关工作，需要掌握Linux系统操作方法和相关命令。 ZooKeeper ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。 Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架，HDFS和MapReduce是其核心设计，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，是大数据开发必不可少的框架技能。 Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。 Hbase 这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多 Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据，通过Hadoop的并行加载机制来统一线上和离线的消息处理，通过集群来提供实时的消息。 Spark Spark是专为大规模数据处理而设计的快速通用的计算引擎，拥有Hadoop MapReduce所具有的优点，但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

赞0 踩0 评论0

游客z26npzhujwpdw_个人页

个人介绍

擅长的技术

Spark中数据的位置是被谁管理的？

Spark中的4040端口由什么功能?

Spark on Yarn 模式有哪些优点？

Spark Streaming和Storm有何区别？

Hadoop高并发？

Hadoop性能调优？

简单说一下hadoop和spark的shuffle过程？

hadoop和spark的都是并行计算，那么他们有什么相同和区别？

RDD机制？

请问pytorch torchvision. transforms里的处理函数的处理效果图怎么查看？

pytorch模型预测这一步出现这个报错，请问有人知道咋解决吗

大数据

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

游客z26npzhujwpdw_个人页

个人介绍

擅长的技术

Spark中数据的位置是被谁管理的？

Spark中的4040端口由什么功能?

Spark on Yarn 模式有哪些优点？

Spark Streaming和Storm有何区别？

Hadoop高并发？

Hadoop性能调优？

简单说一下hadoop和spark的shuffle过程？

hadoop和spark的都是并行计算，那么他们有什么相同和区别？

RDD机制？

请问pytorch torchvision. transforms里的处理函数的处理效果图怎么查看？

pytorch模型预测这一步出现这个报错，请问有人知道咋解决吗

大数据