遇之问题,与之斗争,穷尽方法,提高自己,重新再来。 https://github.com/Hackeruncle
背景: Kafka集群在一个192.168.0.x网段的,而我们的生产者在192.168.17.x网段的一台机器上,故当生产者发送消息给Kafka时, 无法将消息发送过去。
背景: Kafka集群在一个192.168.0.x网段的,而我们的生产者在192.168.17.x网段的一台机器上,故当生产者发送消息给Kafka时, 无法将消息发送过去。
swap清理: swapoff -a && swapon -a 注意:这样清理有个前提条件,空闲的内存必须比已经使用的swap空间大cache清理: sync; sync; sync;&& echo3 >/proc/sys/vm/drop_caches ...
一.场景: spark通过phoenix 读取hbase表,其实说白了先要去Zookeeper建立connection。二.代码: 点击(此处)折叠或打开 val zkUrl = "192.
.
环境: 1.在hadoop36机器,ping hadoop38机器的pod的ip,为172.30.1.4 2.该pod的service的external-ip的ip为hadoop36的ip3.
1.Java版本1.8[root@sht-sgmhadoopdn-04 app]# java -versionjava version "1.8.0_66"Java(TM) SE Runtime Environment (build 1.
1.git clone and buid [root@sht-sgmhadoopdn-04 app]# git clone https://github.com/azkaban/azkaban.
错误: 在web界面安装 agent那一步,抛错,单击信息查看如下初步分析: 是用localhost:7182 无法连接scm server 尝试解决办法: 1.
1.将博客中 http://blog.itpub.net/30089851/viewspace-2131995/ 的AdvancedExecSource.java 文件重命名为ExecSource_STRING.
1.下载apache-tomcat-7.0.42及解压[root@sht-sgmhadoopnn-01 app]# pwd/root/learnproject/app[root@sht-sgmhadoopnn-01 app]# wget http://archive.
1.登录nn机器,进入最新序号的namenode配置文件夹,查看当前的nn的log4j配置 [root@sht-sgmhadoopnn-01 ~]# cd /var/run/cloudera-scm-agent/process/ [root@sht-sgmhadoopnn-01 process]# ls -lrt .
主要对HDFS服务和Tomcat服务进行实时计算预警,故要做以下加强功能:1. 改造 CDH/Apache hadoop的hdfs的nn,dn进程的日志输出格式,每一条改为json格式输出 (之前每一条为 string)2.
1.版本 CDH5.9.1 安装KAFKA-2.0.2-1.2.0.2.p0.5-el6 https://archive.cloudera.com/kafka/parcels/2.
1.当前环境使用的稳定版本组合a.本套环境CDH经过四次升级,当然版本为CDH-5.10.0-1.cdh5.10.0.p0.41b.KAFKA版本为KAFKA-2.
运行: 在测试的CDH Spark2, 运行spark streaming, 命令如下: 点击(此处)折叠或打开 spark2-submit \ --class com.
一.现象: flume收集-->flume聚合-->kafka-->spark streaming+spark sql-->influxdb-->grafana1.所有进程都是 后台运行的;2.运行进程,当时整套流程都是ok的;3.但是,过一段时间,发现grafana的图表没有数据展示了!!!二.排查:1.检查 spark streaming+spark sql的计算的log,发现一直打印“No cdh role logs in this time interval” ;那么可以推断没有日志过来。
以下是在学习和使用spark过程中遇到的一些问题,记录下来。 1、首先来说说spark任务运行完后查错最常用的一个命令,那就是把任务运行日志down下来。
前言 在国内编译Spark项目需要从Maven源下载很多依赖包,官方源在国内大环境下的下载速度大家都懂得,那个煎熬啊,简直是浪费生命。 如果你的下载速度很快,你现在就可以无视这篇文章了。
1.现象 三台机器都有产生executor,每台都会产生tasks,但是其中只有一台的task有input数据,其他机器的tasks都没有数据。 2.猜想 2.1是不是数据倾斜? 是 2.2是数据量过大,group by时,导致key分布不均? 比如key1 有98万,key2有2万,那么shuffle时,肯定数据倾斜。
1.将之前打包的jar包上传 [root@sht-sgmhadoopnn-01 spark]# pwd /root/learnproject/app/spark[root@sht-sgmhadoopnn-01 spark]# rz rz waiting to receive.
1.进入spark目录和配置文件 [root@sht-sgmhadoopnn-01 ~]# cd /root/learnproject/app/spark/conf [root@sht-sgmhadoopnn-01 conf]# cp spark-defaults.
1.File-->Project Structure 2.Artifacts-->+-->JAR-->From modules with dependencies 3. 单击.
1.下载wget https://grafanarel.s3.amazonaws.com/builds/grafana-4.1.1-1484211277.linux-x64.
1.influxdb创建database[root@sht-sgmhadoopdn-04 app]# influx -precision rfc3339Connected to http://localhost:8086 version 1.
1.下载rpmhttps://dl.influxdata.com/influxdb/releases/influxdb-1.2.0.x86_64.rpm我选择用window7 浏览器下载,然后rz上传到linux机器上2.
1.现象: home界面和主机界面的图表和各组件状态标识符都是灰色(正常是绿色)2.尝试方法:2.0 检查防火墙,python有无升级,是否ping通 2.1 尝试web重启 cloudera management service 和 Cluster1 2.2 尝试重启 cloudera-scm-agent 和 cloudera-scm-server2.3 尝试2.1节时,实时查看 tail -f /var/log/cloudera-scm-server/的log文件 去查看具体明细错误最终发现集群机器的每台时间不一致,而且相差很大,1天。
1.最初选择Redis作为存储,是主要有4个原因:a.redis是一个key-value的存储系统,数据是存储在内存中,读写性能很高;b.支持多种数据类型,如set,zset,list,hash,string;c.key过期策略;d.最主要是网上的博客全是sparkstreaming+redis,都互相模仿;至于缺点,当时还没考虑到。
错误:ImportError No module named mysql.connector 1.下载mysql-connector-python-2.
GitHub: https://github.com/nkrode/RedisLive 1.安装python2.7.5 和piphttp://blog.
1.下载包 $ wget https://python.org/ftp/python/2.7.5/Python-2.7.5.tar.bz2 --no-check-certificate 2.
1.安装jdk1.8[root@sht-sgmhadoopdn-04 ~]# cd /usr/java/[root@sht-sgmhadoopdn-04 java]# wget --no-check-certificate --no-cookies --head...
1.GitHubhttps://github.com/Hackeruncle/OnlineLogAnalysis/blob/master/online_log_analysis/src/main/java/com/learn/java/main/OnLineLogAnalysis1.
1.前提 a. flume 收集--》flume 聚合--》kafka ,启动进程和启动kafka manager监控 08【在线日志分析】之Flume Agent(聚合节点) sink to kafka cluster b.
Go to http://blog.csdn.net/dabokele/article/details/52602412
1.场景 在一个非root且带有sudo权限的用户,使用shell脚本(单独手工执行命令不会抛错,是成功的):会抛错 点击(此处)折叠或打开 #!/bin/bash -x DNS_SERVER=10.
1.创建logtopic[root@sht-sgmhadoopdn-01 kafka]# bin/kafka-topics.sh --create --zookeeper 172.
1.下载sbthttp://www.scala-sbt.org/download.html [root@sht-sgmhadoopnn-01 app]# rzrz waiting to receive.
1.下载 #在window7 手工下载好下面的链接https://github.com/quantifind/KafkaOffsetMonitor/releases/tag/v0.
【kafka cluster机器】:机器名称 用户名称sht-sgmhadoopdn-01/02/03 root 【安装目录】: /root/learnproject/app 1.
【log收集】:机器名称 服务名称 用户flume-agent-01: namenode hdfsflume-agent-02: datanode hdfsflume-agent-03: datanode hdfs ...
1.前期基本架构图2.最终基本架构图 3.版本 Flume: 1.7 Hadoop: 2.7.3 Scala: 2.11 Kafka: 0.10.
环境:CentOS6.5 1.下载hadoop2.7.3最新源码[root@sht-sgmhadoopnn-01 ~]# mkdir -p learnproject/compilesoft[root@sht-sgmhadoopnn-01 ~]# c...
1.目的CDH的角色日志的一行基本组成:年月日 时分秒.毫秒 日志级别 日志信息 本博客主要是想基于Exec Source开发自定义插件AdvancedExecSource,将机器名称 和 服务名称 添加到一行数据的前面,则格式为:机器名称 服务名称 年月日 时分秒.毫秒 日志级别 日志信息 ; 2.关闭projet的Maven Project Builder选择 flume-ng-core,右键单击Properties,弹出Properties页面,单击左侧的Builders, 取消 Maven Project Builder,再 单击OK。
【前提】: 1.windows 7 安装maven-3.3.9 其中在conf/setting.xml文件添加 D:\software\apache-maven-3.
以前我对这块认识很模糊,而且还有错误的认识;今天由我同事提醒,所以我决定来好好的缕缕这块的关系。图: -------------------------------------------1.
磨砺技术珠矶,践行数据之道,追求卓越价值 [作者 高健@博客园 luckyjackgao@gmail.com] 本页目的,是起到索引其他所有本人所写文档的作用: 分类一:PostgreSQL基础知识与基本操作--...
百度云链接: http://pan.baidu.com/s/1kUCg9Kj 密码:xaor Windows 7安装VM10 和Centos6.6,及配置静态IP等等:
left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 inner join(等值连接) 只返回两个表中联结字段相等的行 举例如下: ...
这里先总结数据类型。MySQL中的数据类型大的方面来分,可以分为:日期和时间、数值,以及字符串。下面就分开来进行总结。 1.日期和时间数据类型 MySQL数据类型 含义 ...