遇之问题,与之斗争,穷尽方法,提高自己,重新再来。 https://github.com/Hackeruncle
1.tar-c: 建立压缩档案-x:解压-t:查看内容-r:向压缩归档文件末尾追加文件-u:更新原压缩包中的文件2.这五个是独立的命令,压缩解压都要用到其中一个,可以和别的命令连用但只能用其中一个。
常用命令: 文件和目录: # cd /home 进入 '/home' 目录 # cd .
一、下载CentOSer6.5镜像文件 https://pan.baidu.com/s/1pKZEUJD 二、创建新的虚拟机,命名CentOS6.5 1、在VMware Workstation 9 主页中选择“Create a New Virtual Machine”,创建新的虚拟机。
1.问题: 在CDH5.x或者Apache环境下,配置了NameNode的HA后,Hive无正常查询数据了。 Hive查询会出现如下异常: 点击(此处)折叠或打开 ...
项目团队: 项目可视化web: http://diting.tech/diting/视频与代码: http://diting.tech/diting/download_contact.
百度云链接: https://pan.baidu.com/s/1cACH5O
百度云链接: https://pan.baidu.com/s/1qYo51Ac
> >
主要近期想要做一些代码的项目的学习,所以开通GitHub, 当然ItPub 博客我也会接着写,写的不好,希望大家海涵! 地址:https://github.com/Hackeruncle
查看python的版本 [plain] view plain copy print? #python -V Python 2.
1.背景: 卸载openldap相关的所有rpm包后,出现libldap-2.4.so.2: cannot open shared object file: No such file or directory [root@sht-sgmhadoopcm-01 ~]# rpm -qa|grep openldap openldap-2.
1.想使用hadoop命令,发现无效[root@hadoopnn-01 ~]# which hadoop/usr/bin/which: no hadoop in (/usr/java/jdk1.
一.问题 CDH requires that you configure the Network Time Protocol (NTP) service on each machine in your cluster. To start NTP and configure it to run automatically on reboot, perform the following steps on each node in your cluster. 报错: 1)此角色的主机的运行状况为不良。
1.安装jdk1.8 [root@sht-logstash-01 ~]# cd /usr/java/ [root@sht-logstash-01 java]# wget --no-check-certificate ...
一.简介 1. 核心组成 ELK由Elasticsearch、Logstash和Kibana三部分组件组成; Elasticsearch: 个开源分布式搜索引擎,它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。
一.问题 Hash verification failed 在cdh5.8.2 web界面集群安装过程中,Parcels hash校验失败。 二.
1. 1.58元/小时起快速体验 Hadoop & Spark ,为你助力大数据计算 阿里云EMR是基于 Hadoop 的生态环境来搭建,同时可以跟阿里云的对象存储服务OSS等云服务进行无缝数据交换,方便用户将数据在存储平台和计算平台之间进行输入输出,以满足不同业务类型的需要,所以对阿里云EMR充满期待。
问题现象 在zabbix系统中,对Hadoop集群的历史监控数据分析时,发现在执行大Job任务时,某些服务节点的cpu sys态很高; 具体以hadoop_A服务节点为例,在10:15-10:40这个时间段,cpu user态为60%,而sys态则高达35%; 对于整个Hadoop集群,并不是所有的节点都会出现sys过高的问题,产生此类问题的都是部署CentOS6系统的节点。
本文来自携程技术中心基础业务研发部的《应用架构涅槃》系列分享。据基础业务研发部负责人李小林介绍,互联网二次革命的移动互联网时代,如何吸引用户、留住用户并深入挖掘用户价值,在激烈的竞争中脱颖而出,是各大电商的重要课题。
...
在Hadoop2.x中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container。 使之专注于其擅长的数据处理任务, 将无需考虑资源调度.
记录ALiYun EMR常用服务的手动启动和停止命令(hdfs/yarn/mr-jobhistory/zk/spark-history)
使用json-serde-1.1.9.9-SNAPSHOT-jar-with-dependencies.jar,抛错如下:Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot valida
说明: 由于之前使用CDH5.4.8,其Hive版本为1.1.0,其业务的脚本和jar也在此版本开发,所以有很多依赖性,兼容性等等。然后当我们计划将CDH5.4.8 Job迁移至AliYun EMR平台上,发现hive-1.1.0-cdh5.4.8与该平台的Apache Hadoop2.7.2
1.生成公钥和私钥$ ssh-keygen 回车 回车默认在 ~/.ssh目录生成两个文件: id_rsa :私钥 id_rsa.pub :公钥 2.
[root@sht-sgmhadoopdn-01 ~]# yum install epel-release Loaded plugins: fastestmirror, securityLoading mirror speeds from cached hostfile * epel: ftp.
场景: hive执行一条sql语句,然后map,reduce做完了,写数据over了hive> select dday.full_day, sum(quantity_ordered) from fact_order as fact inner join dim_day as dday on fact.
场景: 跑hive job时,夯住 错误: 查看RM WebSLF4J: Class path contains multiple SLF4J bindings.
Hadoop集群基本部署完成,接下来就需要有一个监控系统,能及时发现性能瓶颈,给故障排除提供有力依据。监控hadoop集群系统好用的比较少,自身感觉ambari比较好用,但不能监控已有的集群环境,挺悲催的。
Stop:1.cm web http://172.16.102.63:7180/a.stop Cluster1b.stop Cloudera Management Service 2.
1. Map端 当Map 开始产生输出时,它并不是简单的把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先是写到内存中的一个缓冲区,并做了一些预排序,以提升效率。
1.Scala 2.11.8 下载解压[root@sht-sgmhadoopnn-01 hadoop]# wget http://downloads.lightbend.
场景: mr或者hive job,check log 发现该错误;又或者kylin在data source sync时也会发生该错误,等等。原因分析:集群的机器的磁盘100%解决方法:(找占磁盘空间大的文件或者文件夹,rm -rf) 1.
环境: Sqoop1 Install And Test MySQL/PostgreSQL 参数解析: --connect: JDBC连接URL --username:连接数据库用户名 --password:连接数据库密码 --table: 要读取的表 -m:map并行读取的数量 含义:读取user_info表数据到HDFS集群,并叧通过一个map任务 注意:此Sqoop命令没有指定HDFS目录,默认数据会放在/user/{user.name}/{--table参数指定表名}目录下。
环境: Hadoop2.7.2(NameNode HA,ResourceManage HA)+HBASE+HIVE环境: Hadoop2.7.2(NameNode HA,ResourceManage HA) 1.
环境: Hadoop2.7.2(NameNode HA,ResourceManage HA)1.下载[root@sht-sgmhadoopnn-01 hadoop]# wget http://apache.
一.Hive订单数据仓库构建 1. 创建事实表并插入数据 DROP TABLE IF EXISTS default.fact_order ; create table default.
1.场景: 跑hive job时,夯住 2.错误: 查看RM Web SLF4J: Class path contains multiple SLF4J bindings.
&
1.场景: hive执行一条sql语句,然后map,reduce做完了,写数据over了 2.错误:java.lang.RuntimeException: Error caching map.
一:任务: /datacenter/shell/user/full/bdl_social_test1.sh 跑全量数据时!Namenode挂掉! 二:报错日志: /var/log/hadoop-hdfs/hadoop-hdfs-namenode-yhbd01.
1.Job类初始化JobClient实例,JobClient中生成JobTracker的RPC实例,这样可以保持与JobTracker的通讯,JobTracker的地址和端口等都是外部配置的,通过Configuration对象读取并且传入。
1.首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑概念,一个节点的slot的数量用来表示某个节点的资源的容量或者说是能力的大小,因而slot是 Hadoop的资源单位。
HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC、Hive、HDFS、HBase、MongoDB、FTP、Http、CSV、Excel、Kafka等)之间数据交换的问题。
不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数,可以极大的减少由于GC工作,而导致的程序运行中断方面的问题,进而适当的提高Java程序的工作效率。
微视频链接: Apache Kylin初识 1.版本(当前实验版本组合,版本一定要兼容,否则各种问题)Hadoop2.7.2+HBase1.1.
一.Hadoop支持Snappy 1.重新编译Hadoop 2.7.2源代码,使其支持Snappy解压压缩库 http://blog.
在安装部署的时候,遇到了问题 Unable to load native-hadoop library 原因1:64位linux使用了32位的hadoop native本地库[root@hadoop-001hadoop-2.