Cloudera Manager简介
Hadoop家族
整个Hadoop家族由以下几个子项目组成:
Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。
HDFS:
是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNo
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;
默认值:strict 描述:strict是避免全分区字段是动态的,必须
HIVE MapJoin异常问题处理总结
HIVE被很广泛的使用,使用过程中也会遇到各种千奇百怪的问题。这里就遇到的MapJoin Local 内存不足的问题进行讨论,从问题描述、mapjion原理以及产生该问题的原因,解决方案做一下介绍,最后对该问题进行了进一步的思考,希望对解决该类问题的朋友有所帮助。
DataX插件编写指南
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。DataX采用了框架 + 插件 的模式,目前已开源,代码托管在github。
Hive架构优点及使用场景
先阅读初识hive
Hive在大数据生态环境中的位置
Hive架构图
client 三种访问方式
1、CLI(hive shell)、command line interface(命令行接口)
2、JDBC/ODBC(ja.
阿里云 MaxCompute 2020-7 月刊
2020年7月,MaxCompute发布使用包年包月计算资源作业支持优先级功能等8项功能,并于8月5日重磅发布企业级安全新能力,解读SaaS模式云数据仓库MaxCompute数据的持续保护。