HBase数据迁移方案介绍
上面这些流程网上很多资料都有提到,对于我们业务来说,还有一种场景是要同步的表是正在实时写的,虽然用上面的也可以解决,但考虑到我们表数据规模很大,几十个T级别,同时又有实时业务在查的情况下,直接在原表上就算只是拷贝HFile,也会影响原集群机器性能,由于我们机器性能IO/内存方面本身就比较差,很容易导致机器异常,所以我们采用的其它一种方案,流程图如下: 图5.新的snapshot迁移方案 为什么要采用这种方案呢,主要考虑的是直接对原表snapshot进行Export会影响集群性能,所以采用折中的方案,即先把老表clone成一个新表,再对新表进行迁移,这样可以避免直接对原表操作。 四、总结 上文把HBase数据迁移过程中常用的一些方法作了一个大概介绍,总结起来就四点: DistCp: 文件层的数据同步,也是我们常用的 CopyTable: 这个涉及对原表数据Scan,然后直接Put到目标表,效率较低 Export/Import: 类似CopyTable, Scan出数据放到文件,再把文件传输到目标集群作Import Snapshot: 比较常用 , 应用灵活,采用快照技术,效率比较高 具体应用时,要结合自身表的特性,考虑数据规模、数据读写方式、实时数据&离线数据等方面,再选择使用哪种。 【编辑推荐】
点赞 0 (编辑:辽源站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |