HBase系列学习:基础知识

简介: HBase系列学习:基础知识

基本介绍

HBase官网:hbase.apache.org/

Apache HBase 是 Hadoop中一个支持分布式的、可扩展的大数据存储的数据库。

当需要对大数据进行随机、实时读/写访问时,可以用 Apache HBase。

HBase特点

列式存储:

HBase是面向列族的非关系型数据库,每行数据列都可以不同,并且列可以按照需求进行动态增加。

因此在开始创建HBase表时,可以只创建列族,等需要时再创建相应的列。

数据压缩:

列式存储意味着数据往往类型相同,可以采用某种压缩算法进行统一的压缩存储。

海量存储:

HDFS支持的海量存储,存储PB级数据仍能有百毫秒内的响应速度。

基本操作

Shell操作

进入HBase客户端命令操作界面:

hbase shell

查看帮助命令:

hbase(main):001:0> help

查看当前数据库中有哪些表:

hbase(main):006:0> list

创建一张表:

创建user表, 包含base_info、extra_info两个列族

hbase(main):007:0> create 'user', 'base_info', 'extra_info'
create 'user', {NAME => 'base_info', VERSIONS => '3'},{NAME => 'extra_info'}

添加数据操作:

向user表中插入信息,row key为 rk0001,列族base_info中添加name列标示符,值为zhangsan

hbase(main):008:0> put 'user', 'rk0001', 'base_info:name', 'zhangsan'

向user表中插入信息,row key为rk0001,列族base_info中添加age列标示符,值为20

hbase(main):010:0>  put 'user', 'rk0001', 'base_info:age', 20

查询数据:

通过rowkey进行查询:

  • 获取user表中row key为rk0001的所有信息
hbase(main):006:0> get 'user', 'rk0001'

查看rowkey下面的某个列族的信息:

  • 获取user表中row key为rk0001,base_info列族的所有信息
hbase(main):007:0> get 'user', 'rk0001', 'base_info'

查看rowkey指定列族指定字段的值:

  • 获取user表中row key为rk0001,base_info列族的name、age列标示符的信息
hbase(main):008:0> get 'user', 'rk0001', 'base_info:name', 'base_info:age'

查看rowkey指定多个列族的信息

  • 获取user表中row key为rk0001,base_info、extra_info列族的信息
hbase(main):010:0> get 'user', 'rk0001', 'base_info', 'extra_info'
hbase(main):011:0> get 'user', 'rk0001', {COLUMN => ['base_info', 'extra_info']}
hbase(main):012:0> get 'user', 'rk0001', {COLUMN => ['base_info:name', 'extra_info:address']}

指定rowkey与列值查询:

  • 获取user表中row key为rk0001,cell的值为zhangsan的信息
hbase(main):013:0> get 'user', 'rk0001', {FILTER => "ValueFilter(=, 'binary:zhangsan')"}

指定rowkey与列值模糊查询:

  • 获取user表中row key为rk0001,列标示符中含有a的信息
hbase(main):015:0> get 'user', 'rk0001', {FILTER => "(QualifierFilter(=,'substring:a'))"}

插入一批数据:

hbase(main):016:0> put 'user', 'rk0002', 'base_info:name', 'fanbingbing'
hbase(main):017:0> put 'user', 'rk0002', 'base_info:gender', 'female'
hbase(main):018:0> put 'user', 'rk0002', 'base_info:birthday', '2000-06-06'
hbase(main):019:0> put 'user', 'rk0002', 'extra_info:address', 'Shanghai'

查询所有数据:

  • 查询user表中的所有信息
hbase(main):020:0> scan 'user'

列族查询:

  • 查询user表中列族为 base_info 的信息

Scan:

  • 设置是否开启Raw模式,开启Raw模式会返回包括已添加删除标记但是未实际删除的数据。
  • VERSIONS指定查询的最大版本数。
hbase(main):021:0> scan 'user', {COLUMNS => 'base_info'}
hbase(main):022:0> scan 'user', {COLUMNS => 'base_info', RAW => true, VERSIONS => 5}

多列族查询:

  • 查询user表中列族为info和data的信息。
hbase(main):023:0> scan 'user', {COLUMNS => ['base_info', 'extra_info']}
hbase(main):024:0> scan 'user', {COLUMNS => ['base_info:name', 'extra_info:address']}

指定列族与某个列名查询:

  • 查询user表中列族为base_info、列标示符为name的信息。
hbase(main):025:0> scan 'user', {COLUMNS => 'base_info:name'}

指定列族与列名以及限定版本查询:

  • 查询user表中列族为base_info、列标示符为name的信息,并且版本最新的5个
hbase(main):026:0> scan 'user', {COLUMNS => 'base_info:name', VERSIONS => 5}

指定多个列族与按照数据值模糊查询:

  • 查询user表中列族为 base_infoextra_info且列标示符中含有a字符的信息
hbase(main):027:0> scan 'user', {COLUMNS => ['base_info', 'extra_info'], FILTER => "(QualifierFilter(=,'substring:a'))"}

rowkey的范围值查询:

  • 查询user表中列族为info,rk范围是[rk0001, rk0003)的数据
hbase(main):028:0> scan 'user', {COLUMNS => 'base_info', STARTROW => 'rk0001', ENDROW => 'rk0003'}

指定rowkey模糊查询:

  • 查询user表中row key以rk字符开头的
hbase(main):029:0> scan 'user',{FILTER=>"PrefixFilter('rk')"}

更新数据值:

  • 把user表中rowkey为rk0001的base_info列族下的列name修改为zhangsansan
hbase(main):030:0> put 'user', 'rk0001', 'base_info:name', 'zhangsansan'

指定rowkey以及列名进行删除:

  • 删除user表row key为rk0001,列标示符为 base_info:name 的数据
hbase(main):032:0>  delete 'user', 'rk0001', 'base_info:name'

指定rowkey,列名以及字段值进行删除:

  • 删除user表row key为rk0001,列标示符为base_info:name,timestamp为1392383705316的数据
hbase(main):033:0> delete 'user', 'rk0001', 'base_info:age', 1564745324798

删除 base_info 列族

hbase(main):034:0> alter 'user', NAME => 'base_info', METHOD => 'delete'
hbase(main):035:0> alter 'user', 'delete' => 'base_info'

删除user表数据:

hbase(main):036:0> truncate 'user'

删除user表:

#先disable  再drop
hbase(main):036:0> disable 'user'
hbase(main):037:0> drop 'user'
#如果不进行disable,直接drop会报错
ERROR: Table user is enabled. Disable it first.

数据模型

逻辑结构:

物理架构:

Rowkey(行键):

  • Table 的主键,Table 中的记录按照 Rowkey 的字典序进行排序。

Column Family(列族):

  • 表中的每个列,都归属与某个列族。
  • 列族是表的 Schema 的一部分,必须在使用表之前定义。

Timestamp(时间戳):

  • 每次数据操作对应的时间戳,可以看作是数据的 Version 版本号。

Column(列):

  • 列族下面的具体列。
  • 属于某一个 ColumnFamily,类似于 MySQL 当中创建的具体的列。

Cell(单元格):

  • {rowkey, column, version} 唯一确定的单元。
  • Cell 中的数据没有类型,全部是以字节数组进行存储。

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
3月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
59 0
|
3月前
|
大数据 分布式数据库 Hbase
Hbase学习三:Hbase常用命令总结
Hbase学习三:Hbase常用命令总结
242 0
|
4月前
|
存储 SQL 分布式计算
技术心得记录:深入学习HBase架构原理
技术心得记录:深入学习HBase架构原理
|
SQL 缓存 Java
【大数据】HBase入门学习 3
【大数据】HBase入门学习
112 0
|
存储 大数据 分布式数据库
【大数据】HBase入门学习 2
【大数据】HBase入门学习
118 0
|
存储 分布式计算 Hadoop
【大数据】HBase入门学习 1
【大数据】HBase入门学习
108 0
|
存储 NoSQL 关系型数据库
每日积累【Day 3】Hbase架构深入学习
每日积累【Day 3】Hbase架构深入学习
每日积累【Day 3】Hbase架构深入学习
|
大数据 Shell 分布式数据库
基于mac构建大数据伪分布式学习环境(六)-部署HBase
本文主要讲解列式数据库HBase的单机部署方式与配置
129 0
|
Java 分布式数据库 Ruby
HBase Filter 过滤器之 Comparator 原理及源码学习
HBase所有的比较器实现类都继承于父类ByteArrayComparable,而ByteArrayComparable又实现了Comparable接口;不同功能的比较器差别在于对父类compareTo()方法的重写逻辑不同。 下面分别对HBase Filter默认实现的七大比较器一一进行介绍。 1. BinaryComparator 介绍:二进制比较器,用于按字典顺序比较指定字节数组。 先看一个小例子: public class BinaryComparatorDemo { public static void main(String[] args) {
482 0
|
Hbase 分布式数据库 Serverless
1元包年,阿里云HBase Serverless开启大数据学习与测试的新时代
阿里云HBase Serverless 版是基于HBase,使用Serverless架构构建的一套新型的HBase 服务。 阿里云HBase Serverless版真正把HBase变成了一个服务,用户无需提前规划资源,选择CPU,内存资源数量,购买集群。在应对业务高峰,业务空间增长时,也无需进行扩容
4759 0
1元包年,阿里云HBase Serverless开启大数据学习与测试的新时代