分布式计算

首页 标签 分布式计算
# 分布式计算 #
关注
37830内容
基于Alluxio系统的Spark DataFrame高效存储管理技术
介绍越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理,提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中,从而将Spark streaming作业的平均性能提升了15倍,峰值甚至达到300倍左右。
Elasticsearch中的DocValues
简单的说,Elasticsearch通过反向索引做搜索,通过DocValues列式存储做分析,将搜索和分析的场景统一到了一个分布式系统中,还是很有搞头的。
比自建 Hadoop 还便宜!云栖大会揭秘阿里云数加 MaxCompute
DT时代,越来越多的企业应用数据步入云端。 Hadoop是当下流行的大数据并行计算体系,横向扩展、生态圈成熟等一直是它的主要特点。 阿里云数加MaxCompute (原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。
阿里云MaxCompute 2019-7月刊
7月MaxCompute最新资讯,技术好文,8月精彩活动预告,尽在7月刊。
ODPS数据迁移指南
1. 背景调研 1.1 ODPS源与目的集群 调研项 内容 ODPS源集群版本 ODPS目的集群版本 ODPS源与目的是否在一个集群/可使用相同账号 ODPS源集群AccessKeyId ODPS源集群AccessKeySecret ODPS目的集群AccessKeyId ODPS目的集群AccessKeyIdSecret 1.2 预迁移数据统计 所属Project 表名 大小 是否要迁移增量 Project1 Table1 Desc查看表大小 2. 工具选择与方案确定 目前有四种方式可用于ODPS的数据迁移。
MaxCompute上如何处理非结构化数据
0. 前言 MaxCompute作为阿里云大数据平台的核心计算组件,拥有强大的计算能力,能够调度大量的节点做并行计算,同时对分布式计算中的failover,重试等均有一套行之有效的处理管理机制。 而MaxCompute SQL能在简明的语义上实现各种数据处理逻辑,在集团内外更是广为应用,在其上实现
免费试用