sh_jepson_高分内容_个人页-阿里云开发者社区

发表了文章 2018-04-09

背景： Kafka集群在一个192.168.0.x网段的，而我们的生产者在192.168.17.x网段的一台机器上，故当生产者发送消息给Kafka时，无法将消息发送过去。

发表了文章 2018-04-08

Batch containing 11 record(s) expired due to timeout while requesting metadata

背景： Kafka集群在一个192.168.0.x网段的，而我们的生产者在192.168.17.x网段的一台机器上，故当生产者发送消息给Kafka时，无法将消息发送过去。

发表了文章 2017-11-28

【记录】:CentOS清理swap和buffer/cache

swap清理： swapoff -a && swapon -a 注意：这样清理有个前提条件，空闲的内存必须比已经使用的swap空间大cache清理： sync; sync; sync;&& echo3 >/proc/sys/vm/drop_caches ...

发表了文章 2017-10-24

java.io.IOException: Connection reset by peer

一.场景: spark通过phoenix 读取hbase表，其实说白了先要去Zookeeper建立connection。二.代码: 点击(此处)折叠或打开 val zkUrl = "192.

发表了文章 2017-08-14

maven报错：找不到符号

.

发表了文章 2017-07-06

Kubernetes node的防火墙问题导致pod ip无法访问

环境: 1.在hadoop36机器，ping hadoop38机器的pod的ip，为172.30.1.4 2.该pod的service的external-ip的ip为hadoop36的ip3.

发表了文章 2017-04-25

Maven-3.3.9 Install and Oozie-4.3.0 Compile

1.Java版本1.8[root@sht-sgmhadoopdn-04 app]# java -versionjava version "1.8.0_66"Java(TM) SE Runtime Environment (build 1.

发表了文章 2017-04-21

Azkaban Install and Schedule Job

1.git clone and buid [root@sht-sgmhadoopdn-04 app]# git clone https://github.com/azkaban/azkaban.

发表了文章 2017-04-19

记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up

错误: 在web界面安装 agent那一步，抛错，单击信息查看如下初步分析：是用localhost:7182 无法连接scm server 尝试解决办法: 1.

发表了文章 2017-03-31

25【在线日志分析】之基于Flume-ng Exec Source开发自定义插件ExecSource_JSON

1.将博客中 http://blog.itpub.net/30089851/viewspace-2131995/ 的AdvancedExecSource.java 文件重命名为ExecSource_STRING.

发表了文章 2017-03-31

24【在线日志分析】之Tomcat的支持log4j,日志输出为json格式

1.下载apache-tomcat-7.0.42及解压[root@sht-sgmhadoopnn-01 app]# pwd/root/learnproject/app[root@sht-sgmhadoopnn-01 app]# wget http://archive.

发表了文章 2017-03-31

23【在线日志分析】之改造CDH的HDFS的NN,DN进程，日志输出为json格式

1.登录nn机器,进入最新序号的namenode配置文件夹,查看当前的nn的log4j配置 [root@sht-sgmhadoopnn-01 ~]# cd /var/run/cloudera-scm-agent/process/ [root@sht-sgmhadoopnn-01 process]# ls -lrt .

发表了文章 2017-03-31

22【在线日志分析】之项目第二阶段概述

主要对HDFS服务和Tomcat服务进行实时计算预警，故要做以下加强功能:1. 改造 CDH/Apache hadoop的hdfs的nn,dn进程的日志输出格式,每一条改为json格式输出 (之前每一条为 string)2.

发表了文章 2017-03-30

记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程

1.版本 CDH5.9.1 安装KAFKA-2.0.2-1.2.0.2.p0.5-el6 https://archive.cloudera.com/kafka/parcels/2.

发表了文章 2017-03-10

记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题

1.当前环境使用的稳定版本组合a.本套环境CDH经过四次升级，当然版本为CDH-5.10.0-1.cdh5.10.0.p0.41b.KAFKA版本为KAFKA-2.

发表了文章 2017-03-02

记录CDH Spark2的spark2-submit的一个No such file or directory问题

运行: 在测试的CDH Spark2, 运行spark streaming，命令如下：点击(此处)折叠或打开 spark2-submit \ --class com.

发表了文章 2017-02-21

21【在线日志分析】之记录一个flume-ng的tail -f参数所诱发的血案

一.现象： flume收集-->flume聚合-->kafka-->spark streaming+spark sql-->influxdb-->grafana1.所有进程都是后台运行的;2.运行进程，当时整套流程都是ok的;3.但是，过一段时间，发现grafana的图表没有数据展示了!!!二.排查:1.检查 spark streaming+spark sql的计算的log,发现一直打印“No cdh role logs in this time interval” ;那么可以推断没有日志过来。

发表了文章 2017-02-21

Spark常见问题解决办法

以下是在学习和使用spark过程中遇到的一些问题，记录下来。 1、首先来说说spark任务运行完后查错最常用的一个命令，那就是把任务运行日志down下来。

发表了文章 2017-02-21

使用阿里云的Maven仓库加速Spark编译过程

前言在国内编译Spark项目需要从Maven源下载很多依赖包，官方源在国内大环境下的下载速度大家都懂得，那个煎熬啊，简直是浪费生命。如果你的下载速度很快，你现在就可以无视这篇文章了。

发表了文章 2017-02-19

20【在线日志分析】之记录一次Spark Streaming+Spark SQL的数据倾斜

1.现象三台机器都有产生executor，每台都会产生tasks，但是其中只有一台的task有input数据，其他机器的tasks都没有数据。 2.猜想 2.1是不是数据倾斜? 是 2.2是数据量过大，group by时，导致key分布不均? 比如key1 有98万，key2有2万,那么shuffle时，肯定数据倾斜。

发表了文章 2017-02-19

19【在线日志分析】之sparkdemo.jar运行在yarn上过程

1.将之前打包的jar包上传 [root@sht-sgmhadoopnn-01 spark]# pwd /root/learnproject/app/spark[root@sht-sgmhadoopnn-01 spark]# rz rz waiting to receive.

发表了文章 2017-02-19

18【在线日志分析】之Spark on Yarn配置日志Web UI(HistoryServer服务)

1.进入spark目录和配置文件 [root@sht-sgmhadoopnn-01 ~]# cd /root/learnproject/app/spark/conf [root@sht-sgmhadoopnn-01 conf]# cp spark-defaults.

发表了文章 2017-02-19

17【在线日志分析】之使用IDEA将工程Build成jar包

1.File-->Project Structure 2.Artifacts-->+-->JAR-->From modules with dependencies 3. 单击.

发表了文章 2017-02-09

16【在线日志分析】之grafana-4.1.1 Install和新建日志分析的DashBoard

1.下载wget https://grafanarel.s3.amazonaws.com/builds/grafana-4.1.1-1484211277.linux-x64.

发表了文章 2017-02-09

15【在线日志分析】之基于Spark Streaming+Saprk SQL开发OnLineLogAanlysis2（Final）

1.influxdb创建database[root@sht-sgmhadoopdn-04 app]# influx -precision rfc3339Connected to http://localhost:8086 version 1.

发表了文章 2017-02-09

14【在线日志分析】之influxdb-1.2.0 Install和概念，语法等学习

1.下载rpmhttps://dl.influxdata.com/influxdb/releases/influxdb-1.2.0.x86_64.rpm我选择用window7 浏览器下载，然后rz上传到linux机器上2.

发表了文章 2017-02-09

记录一次帮网友解决CDH集群机器的时钟偏差

1.现象： home界面和主机界面的图表和各组件状态标识符都是灰色（正常是绿色）2.尝试方法：2.0 检查防火墙，python有无升级，是否ping通 2.1 尝试web重启 cloudera management service 和 Cluster1 2.2 尝试重启 cloudera-scm-agent 和 cloudera-scm-server2.3 尝试2.1节时，实时查看 tail -f /var/log/cloudera-scm-server/的log文件去查看具体明细错误最终发现集群机器的每台时间不一致，而且相差很大，1天。

发表了文章 2017-02-09

13【在线日志分析】之舍弃Redis+echarts3,选择InfluxDB+Grafana

1.最初选择Redis作为存储，是主要有4个原因:a.redis是一个key-value的存储系统，数据是存储在内存中，读写性能很高；b.支持多种数据类型，如set,zset,list,hash,string；c.key过期策略；d.最主要是网上的博客全是sparkstreaming+redis，都互相模仿；至于缺点，当时还没考虑到。

发表了文章 2017-01-17

Window7 python2.7 抛错ImportError No module named mysql.connector

错误:ImportError No module named mysql.connector 1.下载mysql-connector-python-2.

发表了文章 2017-01-15

12【在线日志分析】之RedisLive监控工具的详细安装

GitHub: https://github.com/nkrode/RedisLive 1.安装python2.7.5 和piphttp://blog.

发表了文章 2017-01-15

Centos6.5安装python2.7.5+pip

1.下载包 $ wget https://python.org/ftp/python/2.7.5/Python-2.7.5.tar.bz2 --no-check-certificate 2.

发表了文章 2017-01-15

11【在线日志分析】之redis-3.2.5 install(单节点)

1.安装jdk1.8[root@sht-sgmhadoopdn-04 ~]# cd /usr/java/[root@sht-sgmhadoopdn-04 java]# wget --no-check-certificate --no-cookies --head...

发表了文章 2017-01-14

10【在线日志分析】之基于Spark Streaming开发OnLineLogAanlysis1

1.GitHubhttps://github.com/Hackeruncle/OnlineLogAnalysis/blob/master/online_log_analysis/src/main/java/com/learn/java/main/OnLineLogAnalysis1.

发表了文章 2017-01-14

09【在线日志分析】之基于Spark Streaming Direct方式的WordCount最详细案例(java版)

1.前提 a. flume 收集--》flume 聚合--》kafka ，启动进程和启动kafka manager监控 08【在线日志分析】之Flume Agent(聚合节点) sink to kafka cluster b.

发表了文章 2017-01-13

Spark Streaming函数的分析与理解

Go to http://blog.csdn.net/dabokele/article/details/52602412

发表了文章 2017-01-12

记录在shell脚本中使用sudo echo x > 时,抛Permission denied错误

1.场景在一个非root且带有sudo权限的用户，使用shell脚本(单独手工执行命令不会抛错，是成功的)：会抛错点击(此处)折叠或打开 #!/bin/bash -x DNS_SERVER=10.

发表了文章 2017-01-07

08【在线日志分析】之Flume Agent(聚合节点) sink to kafka cluster

1.创建logtopic[root@sht-sgmhadoopdn-01 kafka]# bin/kafka-topics.sh --create --zookeeper 172.

发表了文章 2017-01-07

07【在线日志分析】之kafka-manager监控工具的搭建（sbt安装与编译）

1.下载sbthttp://www.scala-sbt.org/download.html [root@sht-sgmhadoopnn-01 app]# rzrz waiting to receive.

发表了文章 2017-01-07

06【在线日志分析】之KafkaOffsetMonitor监控工具的搭建

1.下载 #在window7 手工下载好下面的链接https://github.com/quantifind/KafkaOffsetMonitor/releases/tag/v0.

发表了文章 2017-01-07

05【在线日志分析】之Kafka 0.10.1.0 Cluster的搭建和Topic简单操作实验

【kafka cluster机器】:机器名称用户名称sht-sgmhadoopdn-01/02/03 root 【安装目录】: /root/learnproject/app 1.

发表了文章 2017-01-07

04【在线日志分析】之Flume Agent的3台收集+1台聚合到hdfs的搭建

【log收集】:机器名称服务名称用户flume-agent-01: namenode hdfsflume-agent-02: datanode hdfsflume-agent-03: datanode hdfs ...

发表了文章 2017-01-07

00【在线日志分析】之项目概述和GitHub项目地址

1.前期基本架构图2.最终基本架构图 3.版本 Flume: 1.7 Hadoop: 2.7.3 Scala: 2.11 Kafka: 0.10.

发表了文章 2017-01-07

03【在线日志分析】之hadoop-2.7.3编译和搭建集群环境(HDFS HA,Yarn HA)

环境:CentOS6.5 1.下载hadoop2.7.3最新源码[root@sht-sgmhadoopnn-01 ~]# mkdir -p learnproject/compilesoft[root@sht-sgmhadoopnn-01 ~]# c...

发表了文章 2017-01-06

02【在线日志分析】之基于Flume-ng Exec Source开发自定义插件AdvancedExecSource

1.目的CDH的角色日志的一行基本组成：年月日时分秒.毫秒日志级别日志信息本博客主要是想基于Exec Source开发自定义插件AdvancedExecSource，将机器名称和服务名称添加到一行数据的前面，则格式为：机器名称服务名称年月日时分秒.毫秒日志级别日志信息； 2.关闭projet的Maven Project Builder选择 flume-ng-core，右键单击Properties，弹出Properties页面，单击左侧的Builders，取消 Maven Project Builder,再单击OK。

发表了文章 2017-01-05

01【在线日志分析】之Flume-1.7.0源码编译导入eclipse

【前提】: 1.windows 7 安装maven-3.3.9 其中在conf/setting.xml文件添加 D:\software\apache-maven-3.

发表了文章 2016-12-30

Linux-Memory小记

以前我对这块认识很模糊，而且还有错误的认识；今天由我同事提醒，所以我决定来好好的缕缕这块的关系。图: -------------------------------------------1.

发表了文章 2016-12-28

PostgreSQL索引页

磨砺技术珠矶，践行数据之道，追求卓越价值 [作者高健@博客园 luckyjackgao@gmail.com] 本页目的，是起到索引其他所有本人所写文档的作用：分类一：PostgreSQL基础知识与基本操作--...

发表了文章 2016-12-23

大数据之MySQL基础（含Linux）

百度云链接: http://pan.baidu.com/s/1kUCg9Kj 密码：xaor Windows 7安装VM10 和Centos6.6,及配置静态IP等等：

发表了文章 2016-12-22

MySQL的leftjoin、rightjoin、innerjoin的案例

left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录 right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录 inner join(等值连接) 只返回两个表中联结字段相等的行举例如下： ...

发表了文章 2016-12-22

MySQL字段类型小记

这里先总结数据类型。MySQL中的数据类型大的方面来分，可以分为：日期和时间、数值，以及字符串。下面就分开来进行总结。 1.日期和时间数据类型 MySQL数据类型含义 ...

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

sh_jepson_个人页

个人介绍

擅长的技术

Batch containing 11 record(s) expired due to timeout while requesting metadata

【记录】:CentOS清理swap和buffer/cache

java.io.IOException: Connection reset by peer

maven报错：找不到符号

Kubernetes node的防火墙问题导致pod ip无法访问

Maven-3.3.9 Install and Oozie-4.3.0 Compile

Azkaban Install and Schedule Job

记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up

25【在线日志分析】之基于Flume-ng Exec Source开发自定义插件ExecSource_JSON

24【在线日志分析】之Tomcat的支持log4j,日志输出为json格式

23【在线日志分析】之改造CDH的HDFS的NN,DN进程，日志输出为json格式

22【在线日志分析】之项目第二阶段概述

记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程

记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题

记录CDH Spark2的spark2-submit的一个No such file or directory问题

21【在线日志分析】之记录一个flume-ng的tail -f参数所诱发的血案

Spark常见问题解决办法

使用阿里云的Maven仓库加速Spark编译过程

20【在线日志分析】之记录一次Spark Streaming+Spark SQL的数据倾斜

19【在线日志分析】之sparkdemo.jar运行在yarn上过程

18【在线日志分析】之Spark on Yarn配置日志Web UI(HistoryServer服务)

17【在线日志分析】之使用IDEA将工程Build成jar包

16【在线日志分析】之grafana-4.1.1 Install和新建日志分析的DashBoard

15【在线日志分析】之基于Spark Streaming+Saprk SQL开发OnLineLogAanlysis2（Final）

14【在线日志分析】之influxdb-1.2.0 Install和概念，语法等学习

记录一次帮网友解决CDH集群机器的时钟偏差

13【在线日志分析】之舍弃Redis+echarts3,选择InfluxDB+Grafana

Window7 python2.7 抛错ImportError No module named mysql.connector

12【在线日志分析】之RedisLive监控工具的详细安装

Centos6.5安装python2.7.5+pip

11【在线日志分析】之redis-3.2.5 install(单节点)

10【在线日志分析】之基于Spark Streaming开发OnLineLogAanlysis1

09【在线日志分析】之基于Spark Streaming Direct方式的WordCount最详细案例(java版)

Spark Streaming函数的分析与理解

记录在shell脚本中使用sudo echo x > 时,抛Permission denied错误

08【在线日志分析】之Flume Agent(聚合节点) sink to kafka cluster

07【在线日志分析】之kafka-manager监控工具的搭建（sbt安装与编译）

06【在线日志分析】之KafkaOffsetMonitor监控工具的搭建

05【在线日志分析】之Kafka 0.10.1.0 Cluster的搭建和Topic简单操作实验

04【在线日志分析】之Flume Agent的3台收集+1台聚合到hdfs的搭建

00【在线日志分析】之项目概述和GitHub项目地址

03【在线日志分析】之hadoop-2.7.3编译和搭建集群环境(HDFS HA,Yarn HA)

02【在线日志分析】之基于Flume-ng Exec Source开发自定义插件AdvancedExecSource

01【在线日志分析】之Flume-1.7.0源码编译导入eclipse

Linux-Memory小记

PostgreSQL索引页

大数据之MySQL基础（含Linux）

MySQL的leftjoin、rightjoin、innerjoin的案例

MySQL字段类型小记

Batch containing 11 record(s) expired due to timeout while requesting metadata

【记录】:CentOS清理swap和buffer/cache

java.io.IOException: Connection reset by peer

maven报错：找不到符号

Kubernetes node的防火墙问题导致pod ip无法访问

Maven-3.3.9 Install and Oozie-4.3.0 Compile

Azkaban Install and Schedule Job

记录CDH安装的一个坑:could not contact scm server at localhost:7182, giving up

25【在线日志分析】之基于Flume-ng Exec Source开发自定义插件ExecSource_JSON

24【在线日志分析】之Tomcat的支持log4j,日志输出为json格式

23【在线日志分析】之改造CDH的HDFS的NN,DN进程，日志输出为json格式

22【在线日志分析】之项目第二阶段概述

记录自定义kafka的parcel库,CDH安装kafka服务,无法安装过去的排雷过程

记录CDH5.10一个clients.NetworkClient: Bootstrap broker ip:9092 disconnected问题