HBase数据迁移方案介绍

发布时间：2019-08-09 06:15:37 所属栏目：MySql教程来源：ballwql

导读：一、前言 HBase数据迁移是很常见的操作，目前业界主要的迁移方式主要分为以下几类：图1.HBase数据迁移方案从上面图中可看出，目前的方案主要有四类，Hadoop层有一类，HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移 2.1 方案介绍 Hadoop层的数

此方式与CopyTable类似，主要是将HBase表数据转换成Sequence File并dump到HDFS，也涉及Scan表数据，与CopyTable相比，还多支持不同版本数据的拷贝，同时它拷贝时不是将HBase数据直接Put到目标集群表，而是先转换成文件，把文件同步到目标集群后再通过Import到线上表。主要有两个阶段：

Export阶段: 将原集群表数据Scan并转换成Sequence File到Hdfs上，因Export也是依赖于MR的，如果用到独立的MR集群的话，只要保证在MR集群上关于HBase的配置和原集群一样且能和原集群策略打通(master&regionserver策略），就可直接用Export命令，如果没有独立MR集群，则只能在HBase集群上开MR，若需要同步多个版本数据，可以指定versions参数，否则默认同步最新版本的数据，还可以指定数据起始结束时间，使用如下：

#  output_hdfs_path可以直接是目标集群的hdfs路径，也可以是原集群的HDFS路径，如果需要指定版本号，起始结束时间  
hbase org.apache.hadoop.hbase.mapreduce.Export <tableName> <ouput_hdfs_path> <versions> <starttime> <endtime>

Import阶段:　将原集群Export出的SequenceFile导到目标集群对应表，使用如下：

#如果原数据是存在原集群HDFS，此处input_hdfs_path可以是原集群的HDFS路径，如果原数据存在目标集群HDFS，则为目标集群的HDFS路径  
hbase org.apache.hadoop.hbase.mapreduce.Import <tableName> <input_hdfs_path>

3.3 Snapshot方式

3.3.1 snapshot介绍

此方式与上面几中方式有所区别，也是目前用得比较多的方案，snapshot字面意思即快照，传统关系型数据库也有快照的概念，HBase中关于快照的概念定义如下：

快照就是一份元信息的合集，允许管理员恢复到表的先前状态，快照不是表的复制而是一个文件名称列表，因而不会复制数据

因不拷贝实际的数据，所以整个过程是比较快的，相当于对表当前元数据状态作一个克隆，snapshot的流程主要有三个步骤：

HBase数据迁移方案介绍

图2.数据迁移图

加锁: 加锁对象是regionserver的memstore，目的是禁止在创建snapshot过程中对数据进行insert,update,delete操作

刷盘：刷盘是针对当前还在memstore中的数据刷到HDFS上，保证快照数据相对完整，此步也不是强制的，如果不刷会，快照中数据有不一致风险

创建指针: snapshot过程不拷贝数据，但会创建对HDFS文件的指针，snapshot中存储的就是这些指标元数据

3.3.2 snapshot内部原理

snapshot实际内部是怎么做的呢，上面说到，snapshot只是对元数据信息克隆，不拷贝实际数据文件，我们以表test为例，这个表有三个region, 每个region分别有两个HFile，创建snapshot过程如下：

HBase数据迁移方案介绍

图3.snapshot创建内部原理

创建的snapshot放在目录/hbase/.hbase-snapshot/下，元数据信息放在/hbase/.hbase-snapshot/data.manifest中，如上图所示，snapshot中也分别包含对原表region HFile的引用，元数据信息具体包括哪哪些呢：

1. snapshot元数据信息  
2. 表的元数据信息&schema，即原表的.tableinfo文件  
3. 对原表Hfile的引用信息

由于我们表的数据在实时变化，涉及region的Hfile合并删除等操作，对于snapshot而言，这部分数据HBase会怎么处理呢，实际上，当发现spit/compact等操作时，HBase会将原表发生变化的HFile拷贝到/hbase/.archive目录，如上图中如果Region3的F31&F32发生变化，则F31和F32会被同步到.archive目录，这样发生修改的文件数据不至于失效，如下图所示：

HBase数据迁移方案介绍

图4.snapshot文件迁移

快照中还有一个命令就是clone_snapshot，这个命令也很用，我们可以用它来重命名表，恢复表数据等。具体用法如下：

hbase> clone_snapshot 'snapshot_src_table' , 'new_table_name'

这个命令也是不涉及实际数据文件的拷贝，所以执行起来很快，那拷贝的是什么呢，与上面提到的引用文件不同，它所生成的是linkfile，这个文件不包含任何内容，和上面引用文件一样的是，在发生compact等操作时，会将原文件copy到/hbase/.archive目录。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页