HBase基础

2021 年 10 月 10 日
筆記
HBase

Hadoop生态系统

HBase简介

HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库

利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务（Zookeeper中用来存HBase的元数据）

主要用来存储非结构化和半结构化的松散数据（列存 NoSQL 数据库）

HBase框架

HMaster：

为ReginaServer分配Region

发现失效的Region并重新分配

负责RegionServer的负载均衡

管理用户对表的增删改（对表结构）请求

RegionServer：

Region server维护region，处理对这些region的IO请求

Region server负责切分在运行过程中变得过大的region

Region：

HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据；每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）。

当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。

HBase数据模型

Region：

HRegion是HBase中分布式存储和负载均衡的最小单元，最小单元表示不同的HRegion可以分布在不同的HRegion server上

HRegion由一个或多个Store组成，每个store保存一个columns family

每一个Store由一个memStore和0至多个StoreFile组成

memstore和StoreFile：

一个region由多个store组成，一个store对应一个CF（列族）store包括位于内存中的memstore和位于磁盘的storefile写操作先写入memstore，当memstore中的数据达到某个阈值，hregionserver会启动flashcache进程写入storefile，每次写入形成单独的一个storefile

当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、major compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile

当一个region所有storefile的大小和数量超过一定阈值后，会把当前的region分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡

客户端检索数据，先在memstore找，找不到再找storefile

Hive对比HBase

Hive

数据仓库工具

Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系，以方便使用HQL去管理查询

用于数据分析、清洗

Hive适用于离线的数据分析和清洗，延迟较高

基于HDFS、MapReduce

Hive存储的数据依旧在DataNode上，编写的HQL语句终将是转换为MapReduce代码执行

HBase

NoSQL数据库

是一种面向列存储的非关系型数据库。（rowkey，列蔟名：列名，values）

用于存储结构化和非结构化的数据

适用于单表非关系型数据的存储，不适合做关联查询，类似JOIN等操作。

基于HDFS

数据持久化存储的体现形式是Hfile，存放于DataNode中，被ResionServer以region的形式进行管理

延迟较低，接入在线业务使用

面对大量的企业数据，HBase可以直线单表大量数据的存储，同时提供了高效的数据访问速度

Tags: HBase

HBase基础

Hadoop生态系统

HBase简介

HBase框架

HBase数据模型

Hive对比HBase

VirMach 便宜 VPS

QNews

HBase基础

Hadoop生态系统

HBase简介

HBase框架

HBase数据模型

Hive对比HBase

分享此文：

Related Posts

上海某大公司：你是了解Redis对吧？

前端框架撸起来——概述

凛冬将至 内存价格暴跌50%？厂商反驳：降价并不多

首批骁龙898！三星Galaxy S22渲染图曝光：Note味十足

VirMach 便宜 VPS

QNews

熱門搜尋

凛冬将至内存价格暴跌50%？厂商反驳：降价并不多