开源大数据平台 E-MapReduce

首页 标签 开源大数据平台 E-MapReduce
# 开源大数据平台 E-MapReduce #
关注
1509内容
EMR Spark Relational Cache如何支持雪花模型中的关联匹配
我们需要找到一种方式可以通过单个Relational Cache支持优化多个关联查询的方式,从而在加速用户查询的同时,减少创建和更新relational cache的代价。Record Preserve Join是支持这种优化的非常有效的方式。
E-MapReduce集群搭建HAWQ实践
HAWQ是一种基于HDFS的MPP(Massively Parallel Processing) SQL引擎,支持标准SQL/事务处理,性能比原生Hive快几百倍。本文介绍在E-MapReduce集群上面如何搭建HAWQ。
YARN ResourceManager重启作业保留机制
YARN可以通过相关配置支持ResourceManager重启过程中,不影响正在运行的作业,即重启后,作业还能正常继续运行直到结束
钉钉群直播【Delta Lake:一种新型的数据湖方案】
Delta Lake 是 Databricks 推出的一种新型的数据湖方案,解决了传统数据湖方案中的诸多痛点。其中的核心组件 Delta 也于近期开源。本次分享将围绕 Delta Lake 和 Delta 的诸多细节展开,如 Delta Lake 的适用场景、技术优势,Delta 的原理实现以及一些高级特性等,并就现有解决方案做横向对比。
[译]利用贝叶斯推理做硬件故障率的准实时预测
你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术!如果你还没用上,这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例:通过传感器收集的流式数据预测硬件故障率。
欢迎加入Spark中国社区
欢迎大家关注Spark中国社区! 社区成员会定期把Spark(全球)社区的最新发布、文档等翻译后放到社区,并经常组织社区成员线上、线下的直播分享、meetup以及有奖比赛等活动,非常欢迎大家加入社区,对于发帖、提问、答疑的同学,社区会给予特色的奖励 Spark社群钉钉群
5分钟迅速搭建云上Lambda大数据分析架构
主要介绍基于 Tablestore 的数据变更实时捕获订阅能力,实现云上Lambda 架构的轻量化实现数据的实时和离线处理。演示模拟了一个电商订单场景,通过流计算实现订单大屏的场景,做到海量订单实时注入的同时,进行10s的订单统计聚合以及交易金额统计并做实时的大屏幕展示
一键扩容E-MapReduce集群,运维SO EASY
一键扩容E-MapReduce集群,运维SO EASY 谈到集群运维,我们不得不说说集群的扩容。随着业务量的增长,数据也会跟着增长,这样我们的集群规模也不得不跟着进行扩容。那么集群如何进行扩容呢,我们分下面的两个场景跟大家介绍一下 1. IDC机房集群扩容。当我们集群需要扩容的时候,一般会经过下
使用ApacheDS对Presto用户进行认证
Presto可以对接LDAP,实现用户密码认证。只需要Coordinator节点对接LDAP即可。主要步骤如下: 1.配置ApacheDS,启用LDAPS 2. 在ApacheDS中创建用户信息 3. 配置Presto Coordinator,重启生效 4. 验证配置
在E-MapReduce集群内运行Spark GraphX作业
Spark GraphX是一个比较流行的图计算框架,如果你使用了阿里云的E-MapReduce服务,可以很方便的运行图计算的作业。 下面以PageRank为例,看看如何运行GraphX作业
免费试用