第6章 HBase基础

本文涉及的产品
注册配置 MSE Nacos/ZooKeeper,118元/月
云原生网关 MSE Higress,422元/月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 第6章 HBase基础

一:判断题

1:HBase是一套高性能的分布式数据集群,必须在大型机或者高性能的服务器上进行搭建。

T


2:HBase是Apache的Hadoop项目的子项目,利用Hadoop HDFS作为其文件存储系统,适合于非结构化数据存储。

T


3:Hbase 采用是 Key-Value 形式的数据库,模拟于 Java 中的 Map 形式。

T


4:HBase 中的数据都是字节,且有各种类型。

F


二:单选题

1:HBase 存储底层数据依靠的是

A.HDFS

B.Hadoop

C.Memory

D.MapReduce


2:HBase依赖______提供强大的计算能力。

A.Zookeeper

B.Chubby

C.RPC

D.MapReduce


3:HBase依赖______提供消息通信机制

A.Zookeeper

B.Chubby

C.RPC

D.Socket


4:HBase来源于哪一项?

A.The Google File System

B.MapReduce

C.BigTable

D.Chubby


5:HFile 数据格式中的 MetaIndex 字段用于

A.Meta 块的长度

B.Meta 块的结束点

C.Meta 块数据内容

D.Meta 块的起始点


6:HFile 数据格式中的 KeyValue 数据格式中 Value 部分是

A.拥有复杂结构的字符串

B.字符串

C.二进制数据

D.压缩数据


7:HFile 数据格式中的 Magic 字段用于

A.存储随机数,防止数据损坏

B.存储数据的起点

C.存储数据块的起点


8:HFile 数据格式中的 Data 字段用于

A.存储实际的 KeyValue 数据

B.存储数据的起点

C.指定字段的长度

D.存储数据块的起点

D.指定字段的长度


9:HBase数据库的BlockCache缓存的数据块中,哪一项不一定能提高效率。

A.–ROOT-表

B…META.表

C.HFile index

D.普通的数据块


10:h0148. 关于MySQL分库分表的方案相关描述,错误的是:

A.当服务器性能出现瓶颈需要扩容时,常常采取“翻倍”分库增

加服务器的方案,导致资源的浪费。

B.一开始就对如何切分数据做好精心设计,一旦稍有不慎,设

计上出现了数据倾斜。

C.故障恢复需要不需要人工介入,运维简单。


11:h0149. 关于HBase的描述,错误的是:

A.HBase是一个开源的、分布式的、版本化的、非关系的数据库,它参考了Google的Bigtable。

B.HBase™是Hadoop数据库,是一个分布式、可伸缩、大数据存储区。

C.目标是在商用硬件集群之上托管非常大的表----数十亿行X百万列。

D.只能用来存储结构化的数据


三:填空题

1:HBase的分布式存储的最小单元是

Region


2:HBase的存储的最小单元是

Hfile


四:主观题

1:简述HBase写数据流程?

1:zookeeper中存储了meta表的region信息,从meta表中获取相应的region信息,然后找到meta表的数据。
2:根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息。
3:找到对应的regionserver。
4:把数据分别写到Hlog和MemStore上一份。
5:MemStore达到一个阀值后则把数据刷成一个StoreFile文件。若MemStore中的数据有丢失,则可以从HLog上恢复。
6:当多个StoreFile文件达到一定的大小后,会触发Compact合并操作,合并为一个StoreFile,这里同时进行版本的合并和数据删除。
7:当Compace后,逐步形成越来越大的StoreFile后,会触发Spilt操作,把当前的StoreFile分成两个,这里相当于把一个大的regio分割成两个region。


2:HBase的数据模型有哪些?

1:行健(rowkey)是字节数组,是表中每条记录的“主健“,方便快速查找。
2:行(row)由行健(rowkey)唯一标识。
3:列族(column family)行的数据按列族分组cf,创建表的时候定义,不轻易修改。
4:限定字符(column qualifier)列里面的数据定位通过列限定符每个CF可以有一个或多个列成员。
5:单元(cell)行健,列族和列限定符一起确定一个单元。
6:时间版本(version)单元值有时间版本,用时间戳来标识默认1个。
7:时间戳(timestamp)每个cell可能有多个版本,它们之间用时间戳区分。


3:简述HBase的特点有哪些?

1:基于hadoop的hdfs存储,zookeeper进行管理。
2:适合存储半结构化或非结构化的数据。
3:HBase为null的记录不会被存储。
4:HBase是主从架构,HMaster作为主节点,HRegionServer作为从节点


4:HBase的rowkey设计原则有哪些?

1:长度原则:建议越短越好,不要超过16个字节。
2:散列原则:建议将rowkey的高位作为散列字段,由程序循环生成,低位放时间字段,这一将提高数据均衡分布在每个Regionserver
实现负载均衡。
3:唯一原则:必须在设计上保证其唯一性。


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
48 0
|
11月前
|
存储 分布式计算 NoSQL
|
分布式计算 Hadoop 分布式数据库
HBase 部署
HBase 部署
117 0
|
存储 SQL 缓存
全面认识HBase架构(建议收藏)
全面认识HBase架构(建议收藏)
1125 0
全面认识HBase架构(建议收藏)
|
存储 分布式计算 NoSQL
Hbase入门(一)——初识Hbase
本文将介绍大数据的知识和Hbase的基本概念,作为大数据体系中重要的一员,Hbase弥补了Hadoop只能离线批处理的不足,支持存储小文件,随机检索。而这种特性使得Hbase对于实时计算体系的事件存储有天然的较好的支持。这使得Hbase在实时流式计算中也扮演者重要的角色。
338 0
Hbase入门(一)——初识Hbase
|
存储 监控 算法
HBase行键设计
HBase行键设计
2243 0
|
存储 分布式计算 大数据
|
NoSQL Java 分布式数据库
|
存储 分布式数据库 Hbase
|
分布式数据库 数据库 Hbase