教你三步实现CDH到星环TDH的平滑迁移

Transwarp Data Hub(TDH) 是星环科技自主研发的企业级一站式多模型大数据基础平台,其领先的多模型技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层,统一的资源调度层,以及异构存储引擎层。8种异构存储引擎可以支持包括关系表、文本、时空地理、图数据、文档、时序等在内的10种数据模型。存算解耦特性支持弹性扩展,让资源配置更灵活。

星环一站式多模型大数据基础平台TDH架构图

TDH能够存储PB 级别的海量数据,同时能够提供高性能的查询搜索、实时分析、统计分析、预测性分析等数据分析功能,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、图存储分析、空间数据存储、实时数据处理等各类大数据业务场景。

目前 TDH 已经在政府、金融、能源、制造业等十多个行业内落地,可以替代Oracle、IBM DB2、Teradata等传统主流数据库在分析型场景中的应用及替代CDH在大数据平台的应用,帮助企业,更全面、更便捷、更智能、更安全地运用数据,加速企业数字化转型。

本文将基于某金融机构的数据仓库批处理场景来手把手带领大家“三步”完成 CDH到星环TDH的平滑迁移。

CDH集群及业务场景

某金融机构基于CDH构建了离线数仓和对客高并发查询业务,完整业务场景包括:

  • 数据抽取,通过Sqoop基本从业务数据库中抽取数据到分布式文件HDFS;
  • 数据加载,通过Shell脚本将数据Load到离线数仓Hive中,保存为orc格式;
  • 数据加工,通过Hive脚本做数据离线批处理加工,支撑营销、风控等业务;
  • 对客查询,部分结果load到HBase对客提供高并发查询服务;

实际客户场景涉及数千张表和脚本,百TB级别数据量,这里我们对其中完整逻辑做了抽象,精简的过程便以理解迁移过程。

  1. CDH集群信息
硬件信息
节点数 3
CPU 40核/节点
内存 256G/节点
磁盘 12*1.7T/节点
软件信息
软件 版本
CDH V6.2.1
Hive V2.1.1
Hbase V2.1.2
Hadoop V3.0.0
Sqoop V1.99.5

CDH数据处理流程
数据抽取(模拟数据ETL)

用Sqoop工具从业务数据库抽取数据到Hive表。

  1. 批处理数据(模拟数据加工)

在Hive中执行批处理SQL,把结果写入销售统计表。

将处理结果导入HBase,在HBase中查询结果(模拟对客查询)

  • 用HBase的导数工具把Hive批处理结果导入HBase。

  • 点查

**在正式迁移之前,我们需要准备好TDH的部署环境,并安装好星环TDH,具体的安装步骤可参考《手把手教你安装TDH8.1.0》。

TDH集群信息

硬件信息
节点数 3
CPU 40核/节点
内存 256G/节点
磁盘 12*1.7T/节点
软件信息
软件 版本
TDH V8.1.2
HDFS V8.1.0
Inceptor V8.1.0
Hyperbase V8.1.0
Transporter V2.2.0
  1. 星环TDH产品介绍
产品 使用场景 主要功能
分布式文件系统Transwarp Distributed File System(TDFS) 提供Inceptor、Hyperbase等产品所需要的文件读写功能,也可以直接通过接口为客户提供分布式文件系统服务 TDFS是用于存取PB级海量文件的分布式文件系统,提供了兼容Hadoop生态的文件系统API,实现了十亿及以上数量级的文件读写能力。
关系型分析引擎 Inceptor 数据湖以及其他结构化数据的分析场景等 Inceptor是一款可以对数百万张结构化数据表、PB级的海量数据进行存储和加工的分布式关系型分析引擎。Inceptor支持绝大部分ANSI 92、99、2003 SQL标准,兼容传统关系型数据库方言,如Oracle、IBM DB2、Teradata等,支持存储过程,支持分布式事务,便于存量数据分析业务平滑迁移。
宽表数据库Hyperbase 历史数据查询系统、面向消费者的高并发的数据查询业务等场景 Hyperbase是一款能够实现在TB到PB级数据量下毫秒级响应延时、百万级高并发检索的NoSQL宽表数据库。Hyperbase与Inceptor组合,可以为开发者提供良好的SQL兼容性和存储过程的开发能力,支持多种类型的索引技术,支持存放结构化数据以及图片、文本等非结构化数据,能够实现结构化和非结构化数据的混合存储。
大数据整合工具Transporter 数据湖、数据仓库 Transporter是可视化的ETL开发工具,将分散于各个地方、各种平台上的各种类型的数据同步或集成到大数据平台上,通过简洁、统一的可视化界面快速配置数据流转流程,实现异构平台和数据源之间的数据整合。Transporter自研的快速数据同步技术,提供了分布式事务能力,保证了数据在跨平台之间流转时的准确性和一致性。

在安装好TDH及服务之后,我们需要安装星环大数据平台数据备份恢复软件Transwarp Backup (TBAK),之后我们就可以在TBAK的可视化界面通过简单的“三步”来实现CDH到星环TDH的平滑迁移。

Transwarp Backup (TBAK)是星环的大数据平台数据备份恢复软件,可独立于生产集群与备份集群之外,具备灾备方案制定与调度灾备任务的功能。同时,灾备系统提供了可视化的操作页面以及丰富的统计监控页面,用户通过浏览器进行简单的操作即可直观的设计灾备方案、分析灾备任务,从而完成集群的数据备份、同步、迁移。

三步实现CDH到星环TDH的平滑迁移

Step1配置CDH和TDH集群

该步骤主要是用来配置CDH和TDH集群,为后续数据迁移做准备。星环TBAK提供可视化的界面进行集群配置,我们根据界面指引式向导进行配置即可完成,简便快捷。

CDH集群配置

首先新建一个CDH集群配置,我们可以在集群配置界面设置CDH集群名称,协议,CDH Manager IP,端口,用户名和密码等信息。

当集群信息配置完成并校验成功后,我们就可以获取到配置文件。之后我们需要对各服务进行配置并测试连接,在该案例场景中使用的是HDFS,HBase和Hive。

  1. TDH集群配置

同样,我们对TDH集群进行相应配置。

Step2创建CDH迁移方案

当CDH和TDH集群配置完成后,我们就可以配置CDH到TDH的迁移方案了。根据该案例CDH的业务情况,我们需要分别对CDH Hive,HDFS和HBase的迁移方案进行配置。

创建CDH Hive迁移方案

以CDH Hive迁移方案为例,TDH提供服务级和表级的迁移策略,例如这里我们在同步类型中选择“CDH到TDH Hvie表迁移”,同时我们可以对源集群,灾备集群,调度策略等进行配置。在调度策略中用户可以根据实际情况进行配置,我们可以设置在业务空窗期的每天凌晨2点进行数据迁移。同时,用户可以设置相应的告警策略,当迁移发生问题时可以第一时间收到告警信息并对问题进行排查和恢复。

与创建CDH Hive迁移方案的操作步骤相同,我们可以对CDH HFDS和HBase的迁移方案进行配置。

Step3 执行迁移任务和结果检查

当集群配置完成后,所有的迁移方案将在迁移方案界面进行管理和操作。我们可以选择相应的迁移方案进行操作,例如立即执行和设置执行策略。

  1. 执行迁移任务

点击执行迁移任务之后,系统进入到自动迁移状态,我们可以监测迁移任务执行的整体状态信息,并且可以对每一步的执行情况进行实时监测,例如成功,失败,告警,执行中和未执行。当迁移发生故障时,我们会收到执行故障的告警,并对故障发生的阶段进行排查和故障恢复。

  1. 迁移结果检查

当所有迁移步骤都显示成功后,我们可以对迁移前后的情况进行检查确认。

  1. Hive迁移

迁移前CDH Hive表

迁移前TDH Inceptor对应表不存在

迁移后TDH Inceptor对应表查询结果

如上检查,我们可以确认CDH Hive表迁移成功。同样地,我们对HDFS和HBase迁移情况进行检查以确认迁移已成功。

至此,CDH到TDH的迁移工作就全部完成了。

整个迁移过程均在可视化界面完成,逻辑清晰,操作简单,配置灵活,通过3步即可完成所有的迁移工作,同时用户可以对迁移过程进行全流程实时监控,保障整个迁移过程顺利进行。

迁移后TDH数据处理流程

接下来我们来看看CDH迁移到TDH后的数据处理流程。

  1. 数据ETL(抽取+加载)

在星环大数据开发工具Transwarp Data Studio(TDS)中配置数据同步,从业务数据库抽取数据到星环关系型分析引擎Inceptor中。

  1. 数据加工

Inceptor高度兼容Hive,批处理任务基本不需改动即可以迁移到Inceptor执行。

与CDH要手动向HBase导入数据不同,TDH中可以直接把批处理结果写入Hyperbase表中。

  1. Hyperbase提供对客高并发查询

Transwarp Hyperbase支持SQL和API两种查询方式,用户可以根据实际情况进行选择。

  1. SQL查询方式

对传统数据库开发人员友好,门槛低,新业务开发和维护成本低。

  1. API********查询方式

星环TDH对原来基于CDH开发的应用兼容性高,原先业务可以平滑迁移到TDH。

迁移前后数据处理流程********对比

CDH 星环TDH
数据抽取 用Sqoop脚本从业务数据库抽取数据到HDFS 用Transporter工具将从业务数据库同步数据到企业级数据仓库Inceptor中,一步完成数据ETL
数据加载 用Shell脚本将HDSF数据load到Hive
批数加工 在Hive中执行批处理SQL 在Inceptor里面执行批处理,兼容Hive脚本,同时具备更完整的SQL标准、存储过程、以及Oracle、DB2、TD等传统数据库方言
对客查询 用HBase的导数工具把Hive批处理结果导入HBase,在Hbase中查询结果 多模大数据平台,Inceptor批处理结果直接可以通过Hyperbase对外提供高并发查询,Hyperbase既兼容HBase API也可以通过标准SQL低成本开发新业务

以上就是从CDH到星环一站式多模型大数据平台TDH的迁移过程介绍。

作为一家企业级大数据基础软件开发商,星环科技始终坚持自主研发与技术创新,并注重技术的落地应用,帮助各行各业的用户提供国产化大数据基础软件,为企业数字化转型提供强大的技术支撑。

链接:

1. 手把手教你安装 TDH8.1.0 【产品实操】手把手教你安装 TDH8.1.0

2. 星环科技 TDH8.1.0:全新升级为用户带来极致体验 星环科技 TDH8.1.0:全新升级为用户带来极致体验

3. 便捷、高效、智能—从运维视角看星环科技大数据基础平台TDH 便捷、高效、智能—从运维视角看星环科技大数据基础平台TDH