阿里云-EMR团队成员,致力于推广开源大数据在云上的应用
问题背景 yarn的fair类型资源池,是企业级hadoop用户常用的资源池类型。该资源池默认的队列调度策略是fair,即分配资源时只考虑内存限制。 对一个多个团队混合使用的大集群来说,如果想要在分配资源时同时考虑内存和cpu限制,需要指定调度策略为drf。
为了迎接更好的自己。 过去的止步不前 程序员最反感别人没写文档,最不喜欢自己写文档。 我一直很认同技术人员应该持续写技术文章,可以总结经验,打造个人品牌,等等。但加上公司内部分享,实际也没写多少篇,这可能也是很多技术人员的通病吧。
hive是hadoop集群最常用的数据分析工具,只要运行sql就可以分析海量数据。初学者在使用hive时,经常会遇到各种问题,不知道该怎么解决。 本文是hive实践系列的第一篇,以E-MapReduce集群环境为例,介绍常见的hive执行异常,定位和解决方法,以及hive日志查看方法。
本文介绍一些常见的集群跑hive作业参数优化,可以根据业务需要来使用。 提高hdfs性能 修改hdfs-site,注意重启hdfs服务 dfs.client.read.shortcircuit=true //直读 dfs.
自建集群要迁移到EMR集群,往往需要迁移已有数据。本文主要介绍hdfs数据和hive meta数据如何迁移。 前置 已按需求创建好EMR集群。 迁移hdfs数据 主要依靠distcp,核心是打通网络,确定hdfs参数和要迁移内容,测速,迁移。
集群,特别是包年报月集群,在使用过程中,可能会有新的安装第三方软件,修改集群运行环境的需求。 E-MapReduce控制台1.5.0版本提供了集群脚本的功能,可以在集群创建好后批量选择节点,运行您指定的脚本,以实现个性化的需求。
阿里云E-MapReduce从EMR-2.1.0版本镜像开始,Presto组件默认就支持访问oss数据了,不再需要引导操作额外支持。
目前EMR Presto 已经完全支持 OSS 访问,如有其他 Presto 集群访问 OSS 需求,请安装 JindoFS SDK,可以直接访问 oss https://developer.aliyun.com/article/767222
目标 了解E-MapReduce创建集群流程; 熟悉端口转发访问集群可视化组件zeppelin; 完成用zeppelin分析热播数据的示例。 创建集群 集群包括一组ecs实例和运行在实例上的分布式计算框架(Hadoop,Spark等),管控程序,是运行计算任务的资源基础。下面带大家熟悉创建
当前emr最新版本2.0.1没有impala组件,需要额外安装。本文介绍如何在emr 2.0.1版本上用E-MapReduce软件配置功能修改hdfs配置,引导操作安装impala 2.5.0 for cdf 5.7.1版本,shell作业来启动impala的完整过程。 软件配置 impala对
Presto架构 Presto查询引擎是一个Master-Slave的架构,由一个Coordinator节点,一个Discovery Server节点,多个Worker节点组成,Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句,生
E-MapReduce产品的最新版本2.0.0现在支持Presto了,使用指南。本文主要介绍一下什么是Preosto。 Presto是一个分布式SQL查询引擎, 它被设计用来进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口
当前emr最新版本1.3.0没有presto组件,需要额外安装。本文介绍如何用E-MapReduce引导操作来安装presto 0.147版本。引导操作可以在集群创建时执行指定的脚本,详见: [帮助文档](https://help.aliyun.com/document_detail/28108..
5-15号笔者参加了2016中国spark技术峰会,各演讲嘉宾分享了很多spark实践经验,本文整理了笔者印象比较深的内容,ppt详见峰会ppt 《spark and yarn :better together》 Hortonworks技术专家邵赛赛分享了spark如何更好地跑在yarn上,主要
如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。 一.RDS 经典网络RDS 想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。 经典网络的RDS
sqoop简介 sqoop是什么 Sqoop是一款开源的软件工具,提供了Hadoop和关系型数据库中的数据相互转移的功能。可以将一个关系型数据库(例如 : MySQL)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 在E-MapReduce集群中使用sqo