smartloli_高分内容_个人页-阿里云开发者社区

发表了文章 2018-09-15

HBase Region合并分析

1.概述 HBase中表的基本单位是Region，日常在调用HBase API操作一个表时，交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region，今天笔者就来和大家分享一下Region合并的一些问题和解决方法。

发表了文章 2018-08-19

HBase BulkLoad批量写入数据实战

1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、HBase Handler数等）。

发表了文章 2018-08-12

HBase查询优化之Short-Circuit Local Reads

1.概述在《HBase查询优化》一文中，介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式，存储在HDFS上。那么，HDFS层面也有它自己的优化点，即：Short-Circuit Local Reads。

发表了文章 2018-08-05

HBase查询优化

1.概述 HBase是一个实时的非关系型数据库，用来存储海量数据。但是，在实际使用场景中，在使用HBase API查询HBase中的数据时，有时会发现数据查询会很慢。本篇博客将从客户端优化和服务端优化两个方面来介绍，如何提高查询HBase的效率。

发表了文章 2018-07-27

Kafka监控系统Kafka Eagle剖析

1.概述最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题，这里笔者特意整理了这些问题。并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑，同时也给出一些定位分析Kafka Eagle异常的时的解决办法。

发表了文章 2018-07-01

剖析HBase负载均衡和性能指标

1.概述　　在分布式系统中，负载均衡是一个非常重要的功能，在HBase中通过Region的数量来实现负载均衡，HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。

发表了文章 2018-06-22

Hadoop大数据挖掘从入门到进阶实战

1.概述　　大数据时代，数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本，而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮，笔者愿意分享自己多年的开发经验，带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。

发表了文章 2018-06-17

实战Kafka ACL机制

1.概述　　在Kafka0.9版本之前，Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址，例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。

发表了文章 2018-05-12

Hadoop 3.x 新特性剖析系列2

1.概述接着上一篇博客的内容，继续介绍Hadoop3的其他新特性。其内容包含：优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataNode内部添加负载均衡、重构后台程序和任务堆管理。

发表了文章 2018-04-14

Hadoop 3.x 新特性剖析系列1

1.概述　　目前从Hadoop官网的Wiki来看，稳定版本已经发行到Hadoop2.9.0，最新版本为Hadoop3.1.0，查阅JIRA，社区已经着手迭代Hadoop3.2.0。那么，今天笔者就带着大家来剖析一下Hadoop3，看看它给我们带来了哪些新特性。

发表了文章 2018-03-11

Apache Ignite剖析

1.概述　　Apache Ignite和Apache Arrow很类似，属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容，它统一了大数据领域各个生态系统的数据格式，避免了序列化和反序列化所带来的资源开销（能够节省80%左右的CPU资源）。

发表了文章 2018-02-10

HBase MetaStore和Compaction剖析

1.概述　　客户端读写数据是先从HBase Master获取RegionServer的元数据信息，比如Region地址信息。在执行数据写操作时，HBase会先写MetaStore,为什么会写到MetaStore。

发表了文章 2018-01-13

Kylin与CDH兼容性剖析

1. 概述　　Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。

发表了文章 2017-12-10

HBase存储剖析与数据迁移

1.概述　　HBase的存储结构和关系型数据库不一样，HBase面向半结构化数据进行存储。所以，对于结构化的SQL语言查询，HBase自身并没有接口支持。在大数据应用中，虽然也有SQL查询引擎可以查询HBase，比如Phoenix、Drill这类。

发表了文章 2017-11-11

HBase流量限制和表负载均衡剖析

1.概述　　在HBase-1.1.0之前，HBase集群中资源都是全量的。用户、表这些都是没有限制的，看似完美实则隐患较大。今天，笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容　　也许有同学有疑问，为啥要做流量限制，无限制全量跑不是更好吗？举个例子，比如今天的双十一日，数据流量是非常大的。

发表了文章 2017-10-15

Zeppelin源码

1.概述　　在大数据应用场景中，处理数据分析方面，由于开发者的水平不一样，使用的编程语言也不尽相同，可能会涉及到R、Python、Java、Scala等，数据计算模型也估计不一样，可能涉及的有Spark、Hive、Flink、Kylin等等。

发表了文章 2017-09-14

Kafka Streams 剖析

1.概述　　Kafka Streams 是一个用来处理流式数据的库，属于Java类库，它并不是一个流处理框架，和Storm，Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的，能应用到哪些场合，如何使用。

发表了文章 2017-08-09

Kafka 存储机制和副本

1.概述　　Kafka 快速稳定的发展，得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单，存储系统高效，以及充分利用磁盘顺序读写等特性，和其实时在线的业务场景。对于Kafka来说，它是一个分布式的，可分区的，多副本，多订阅者的，基于Zookeeper统一协调的分布式日志系统。

发表了文章 2017-06-10

Elasticsearch 与 Kafka 整合剖析

1.概述　　目前，随着大数据的浪潮，Kafka 被越来越多的企业所认可，如今的Kafka已发展到0.10.x，其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说，既可以分流到离线存储平台（HDFS），离线计算平台（Hive仓库），也可以分流实时流水计算（Storm，Spark）等，同样也可以分流到海量数据查询（HBase），或是及时查询（ElasticSearch）。

发表了文章 2017-05-06

Kafka 源码剖析

1.概述　　在对Kafka使用层面掌握后，进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构，不算太复杂，代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理模块，core模块。

发表了文章 2017-03-07

Kafka Eagle 源码解读

1.概述　　在《Kafka 消息监控 - Kafka Eagle》一文中，简单的介绍了 Kafka Eagle这款监控工具的作用，截图预览，以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上，作者编写了使用手册，告知使用者如何安装，部署，启动该系统。

发表了文章 2017-02-05

Apache Arrow 内存数据

1.概述　　Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层，来加快大数据分析项目的运行速度。 2.内容　　现在大数据处理模型很多，用户在应用大数据分析时，除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外，同样也得关注系统的扩展性和性能。

发表了文章 2017-01-09

Kafka Offset Storage

1.概述　　目前，Kafka 官网最新版[0.10.1.1]，已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实，早在 0.8.2.2 版本，已支持存入消费的 offset 到Topic中，只是那时候默认是将消费的 offset 存放在 Zookeeper 集群中。

发表了文章 2016-12-07

Hive Streaming 追加 ORC 文件

1.概述　　在存储业务数据的时候，随着业务的增长，Hive 表存储在 HDFS 的上的数据会随时间的增加而增加，而以 Text 文本格式存储在 HDFS 上，所消耗的容量资源巨大。那么，我们需要有一种方式来减少容量的成本。

发表了文章 2016-11-04

Kafka 分区备份实战

1.概述　　在 Kafka 集群中，我们可以对每个 Topic 进行一个或是多个分区，并为该 Topic 指定备份数。这部分元数据信息都是存放在 Zookeeper 上，我们可以使用 zkCli 客户端，通过 ls 和 get 命令来查看元数据信息。

发表了文章 2016-10-10

Kafka 消息监控 - Kafka Eagle

1.概述　　在开发工作当中，消费 Kafka 集群中的消息时，数据的变动是我们所关心的，当业务并不复杂的前提下，我们可以使用 Kafka 提供的命令工具，配合 Zookeeper 客户端工具，可以很方便的完成我们的工作。

发表了文章 2016-10-08

Hive SQL 监控系统 - Hive Falcon

1.概述　　在开发工作当中，提交 Hadoop 任务，任务的运行详情，这是我们所关心的，当业务并不复杂的时候，我们可以使用 Hadoop 提供的命令工具去管理 YARN 中的任务。在编写 Hive SQL 的时候，需要在 Hive 终端，编写 SQL 语句，来观察 MapReduce 的运行情况，长此以往，感觉非常的不便。

发表了文章 2016-09-01

Spark 实时计算整合案例

发表了文章 2016-08-31

Flink 案例整合

发表了文章 2016-06-13

Flink 剖析

1.概述　　在如今数据爆炸的时代，企业的数据量与日俱增，大数据产品层出不穷。今天给大家分享一款产品—— Apache Flink，目前，已是 Apache 顶级项目之一。那么，接下来，笔者为大家介绍Flink 的相关内容。

发表了文章 2016-05-09

Kafka - SQL 代码实现

1.概述　　上次给大家分享了关于 Kafka SQL 的实现思路，这次给大家分享如何实现 Kafka SQL。要实现 Kafka SQL，在上一篇《Kafka - SQL 引擎分享》中分享了其实现的思路，核心包含数据源的加载，以及 SQL 树的映射。

发表了文章 2016-04-25

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

smartloli_个人页

个人介绍

擅长的技术

HBase Region合并分析

HBase BulkLoad批量写入数据实战

HBase查询优化之Short-Circuit Local Reads

HBase查询优化

Kafka监控系统Kafka Eagle剖析

剖析HBase负载均衡和性能指标

Hadoop大数据挖掘从入门到进阶实战

实战Kafka ACL机制

Hadoop 3.x 新特性剖析系列2

Hadoop 3.x 新特性剖析系列1

Apache Ignite剖析

HBase MetaStore和Compaction剖析

Kylin与CDH兼容性剖析

HBase存储剖析与数据迁移

HBase流量限制和表负载均衡剖析

Zeppelin源码

Kafka Streams 剖析

Kafka 存储机制和副本

Elasticsearch 与 Kafka 整合剖析

Kafka 源码剖析

Kafka Eagle 源码解读

Apache Arrow 内存数据

Kafka Offset Storage

Hive Streaming 追加 ORC 文件

Kafka 分区备份实战

Kafka 消息监控 - Kafka Eagle

Hive SQL 监控系统 - Hive Falcon

Spark 实时计算整合案例

Flink 案例整合

Flink 剖析

Kafka - SQL 代码实现

Kafka - SQL 引擎分享

Kafka - 消费接口分析

Hadoop - Azkaban 作业调度

Hadoop - Zeppelin 使用心得

Hadoop - Kylin On OLAP

Hadoop - Ambari集群管理剖析

HBase - Phoenix剖析

Hadoop－Drill深度剖析

Hadoop - 实时查询Drill

Hadoop - 任务调度系统比较

Hadoop2.x源码－编译剖析

Kafka项目实战－用户日志上报实时统计之编码实践

MapReduce－深度剖析

HDFS－Architecture剖析

JStorm－介绍

Kafka项目实战－用户日志上报实时统计之分析与设计

MapReduce业务 － 图片关联计算

高可用Hadoop平台－Oozie工作流之Hadoop调度

高可用Hadoop平台－Oozie工作流

HBase Region合并分析

HBase BulkLoad批量写入数据实战

HBase查询优化之Short-Circuit Local Reads

HBase查询优化

Kafka监控系统Kafka Eagle剖析

剖析HBase负载均衡和性能指标

Hadoop大数据挖掘从入门到进阶实战

实战Kafka ACL机制

Hadoop 3.x 新特性剖析系列2

Hadoop 3.x 新特性剖析系列1

Apache Ignite剖析

MapReduce业务－图片关联计算