Spark的搜索结果_热门_第2页-阿里云开发者社区

泰山不老生

|

博文

Spark如何使用Akka实现进程、节点通信的简明介绍

Akka是一款提供了用于构建高并发的、分布式的、可伸缩的、基于Java虚拟机的消息驱动应用的工具集和运行时环境。

# 分布式计算 # 大数据 # Java # Scala # Spark

liketic

|

博文

|

来自：云存储

日志服务（SLS）集成 Spark 流计算实战

日志服务集成 Spark 流式计算：使用Spark Streaming和Structured Streaming对采集到日志服务中的数据进行消费，计算并将结果写回到日志服务。

# 日志服务 # 微服务引擎 # SQL # JSON # 分布式计算 # 监控 # API # 开发工具 # Spark # 流计算 # 数据格式 # 消息中间件

百遇

|

博文

开源大数据技术专场（下午）:Databricks、Intel、阿里、梨视频的技术实践

本论坛第一次聚集阿里Hadoop、Spark、Hbase、Jtorm各领域的技术专家，讲述Hadoop生态的过去现在未来及阿里在Hadoop大生态领域的实践与探索。

# 云原生大数据计算服务 MaxCompute # 对象存储 # 存储 # 分布式计算 # 大数据 # Spark # 流计算 # API # 对象存储 # Hadoop # SQL # 搜索推荐

中间件小哥

|

博文

|

来自：云原生

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

笔者从 2008 年开始工作到现在也有 11 个年头了，一路走来都在和数据打交道，做过大数据底层框架内核的开发（Hadoop，Pig，Tez，Spark，Livy），也做过上层大数据应用开发（写 MapReduce Job 做 ETL ，用 Hive 做 Ad hocquery，用 Tableau 做数据可视化，用 R 做数据分析）。

# 云原生大数据计算服务 MaxCompute # 实时计算 Flink版 # 大数据 # 分布式计算 # 流计算 # Spark # Hadoop

大数据史记

|

博文

分布式编程模型的设计与演化

本文主要内容是分布式编程模型设计与演化，具体分为分布式编程模型的背景、MapReduce编程模型、关系型数据编程模型、分布式图计算模型分布式编程未来展望五部分。

# 云原生大数据计算服务 MaxCompute # SQL # 分布式计算 # MaxCompute # 图计算 # Spark

许鹏

|

博文

Apache Spark技术实战（一）Standalone部署模式下的临时文件清理&日志级别修改

在Standalone部署模式下，Spark运行过程中会创建哪些临时性目录及文件，这些临时目录和文件又是在什么时候被清理，本文将就这些问题做深入细致的解答；并讨论日志级别修改问题。

# 日志服务 # 存储 # 分布式计算 # Java # Apache # Spark

machongmc

|

博文

Spark计算过程分析

### 基本概念 ---------- Spark是一个分布式的内存计算框架，其特点是能处理大规模数据，计算速度快。Spark延续了Hadoop的MapReduce计算模型，相比之下Spark的计算过程保持在内存中，减少了硬盘读写，能够将多个操作进行合并后计算，因此提升了计算速度。同时Spark也提供了更丰富的计算API。 MapReduce是Hadoop和Spark的计算模型，其特点

# 分布式计算 # 资源调度 # 调度 # Spark

eric-li

|

博文

|

来自：大数据与机器学习

通过可视化更好的了解你的Spark应用

图的最大价值是它会推动我们去注意到那些我们从未预料到的东西。 – John Tukey Spark 1.4中对Spark UI进行改进，更加突出可视化的效果。我们来看一下他的主要的改动，主要包含三个方面： Spark事件的时间线视图执行的DAG图 Spark Streaming 的可视化

# 开源大数据平台 E-MapReduce # SQL # 缓存 # 分布式计算 # 数据可视化 # Spark

许鹏

|

博文

Apache Spark源码走读（九）如何进行代码跟读&使用Intellij idea调试Spark源码

今天不谈Spark中什么复杂的技术实现，只稍为聊聊如何进行代码跟读。本文讲解如何进行代码跟读及使用Intellij idea调试Spark源码。

# 日志服务 # 分布式计算 # Apache # Scala # 开发工具 # Spark

轻风_soho

|

博文

Spark集群管理器介绍

Spark可以运行在各种集群管理器上，并通过集群管理器访问集群中的其他机器。 Spark主要有三种集群管理器，如果只是想让spark运行起来，可以采用spark自带的独立集群管理器，采用独立部署的模式；如果是想让Spark部署在其他集群上，各应用共享集群的话，可以采取两

# 分布式计算 # 资源调度 # Hadoop # 调度 # Spark # Apache # 数据安全/隐私保护 # 网络安全 # 存储 # 数据处理

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark