华为云计算IE面试笔记-请描述华为容灾解决方案全景图,并解释双活数据中心需要从哪些角度着手考虑双活设计

容灾全景图按照距离划分:分为本地容灾 同城容灾 异地容灾

   本地容灾包括本地高可用和本地主备。(本数据中心的两机房、机柜)

本地高可用这个方案为了保持业务的连续性,从两个层面来考虑:

①一个是从主机、服务器这个层面考虑,假如这个服务器上的虚拟机或者业务挂了,可以自动的从其他服务器上把它拉活,以此来保证业务的连续性,主要是通过集群HA、DRS、DPM的这些特性。

②另一个就是从存储层面来考虑,使用的Hypermetro特性/ HyperMirror+SmartVirtualization(异构存储,RTO、RPO>0)。推荐Hypermetro

Hypermetro特性基于两套存储阵列实现双活,两端阵列的双活LUN数据实时同步,且双端能够同时处理应用服务器的 I/O 读写请求,面向应用服务器提供无差异的两个站点并行访问能力。当任何一台磁盘阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。

        本地高可用的RTO=0、RPO=0。

      本地主备容灾使用的是同步远程复制技术实现的。RPO=0、RTO>0

       主备主要是存储层的远程复制。

   同城容灾包括同城主备容灾和同城双活容灾。(同城的两数据中心(300km内))

同城主备容灾通过同步远程复制技术和异步远程复制技术实现,这两种技术在写复制的时候不一样。同步远程复制是对端(灾备端)写IO完成返回写成功,异步远程复制就是本端写IO完成返回写成功。主备容灾这个技术很成熟,但是会停止业务,RTO>0,如果是同步远程复制技术,RPO=0,如果是异步远程复制技术,RPO>0。

同城双活容灾这个技术通过华为的Hypermetro实现,一端业务故障时,另一端系统能够自动拉起,但使用双活的成本高,理论上RTO=0、RPO=0。

   异地容灾包括两地三中心主备容灾。(两数据中心距离大于300km)

两地三中心是同城双活或同城主备再与异地主备实现两地三中心技术,使用的是并联或级联技术,适用于业务不允许中断,对数据要求严格的场景,如金融机构等。RTO、RPO较灵活。

另外一种是异地主备容灾的方式,跟同城容灾的主备相比方式不一样,主要是用异步远程复制实现的。RTO>0、RPO>0

 

双活数据中心:

  双活要从全面的角度考虑的话,从安全层传输层业务(应用)层网络层计算集群存储层来考虑

  安全层通过防火墙、安全策略规划和设计保证来访问安全。

  传输层通过设备、链路和板卡冗余,构建可靠的双活传输网络。波分设备提升光信号传输距离。实现链路复用,将数据中心两对链路,减少到一对链路。

  业务(应用)层双活通过负载均衡来实现,也就是GSLB和SLB实现的,通过应用集群技术和数据库集群技术实现。C/S通过应用集群自身特性(Oracle RAC 、IBM DB2),B/S通过LB实现业务负载。

  网络层双活数据中心间IP和FC网络互通。通过全局负载均衡器(GSLB)、服务器负载均衡器(SLB)实现双活。如果外部有一个业务请求信息过来,先到SLB,SLB会查看自己所在的数据中心的主机是否可用,能否提供业务,如果发现主机故障,这时候会触发GSLB,然后改GSLB会通知对端的GLSB开始工作,GSLB会通知下面的SLB工作,SLB会通知底下的主机对业务请求做出响应,然后返回响应给对端,完成双活。

    SLB\GSLB:

对象不一样: 

SLB:本数据中心内的流量负载,数据中心内的故障切换 

GSLB:做到两个数据中心间的流量的负载,保证用户可以使用距离最近的服务器,从而确保访问质量。 

原理不一样: 

SLB是通过代理的方式 去选择用户选择哪一台Web服务器。

GSLB采用DNS解析控制用户访问哪个数据中心 

  计算集群双活将两个数据中心的服务器添加至同一个大集群。主要用的是HA\DRS

  存储层双活一般是选用华为的存储,用的是Hypermetro这个特性,实现了RTO、RPO=0,实现存储双活。在写IO上,上层下发一个写IO,首先两端存储会有一个写互斥,先拿到写权限的一端,就先开始写,写完后,另一端也要写完成后才会返回写成功。读的时候,用到了Ultra path特性,根据Ultra path特性选择一条最优路径,免网关的一个设计,不需要VIS,替代VIS去重新选择一个最优路径,减少设备和开销。而且开启了Hypermetro也可以异构存储,把这些存储阵列制成了vDISK统一使用。

*两地三中心有哪些架构?有什么区别?

图 1 同步+异步(级联组网)

 

 

 

图 2 异步+异步(级联组网)

 

 

 

图 3 同步+异步(并联组网)

 

 

 

图 4 异步+异步(并联组网)

 

 

 

图 5 多对一级联组网

 

 

 

图 6 双活+远程复制组网 

 

 

 

*本地高可用与双活数据中心的区别?(考到)

1.二者使用场景不同。本地高可用是同数据中心或者机房级的容灾,双活数据中心是异地 进行的是区域级的容灾;

2.本地高可用可以使用HyperMirror+SmartVirtualization 实现,双活不可用;

3.多路径:本地高可用使用HyperMetro时,多路径软件设置为负载均衡,而双活配置本地站点优先;

4.双活需要 GSLB、SLB、本地高可用不需要;

5.双活需要考虑安全层、传输层等六个层次的双活,而本地高可用可以不用考虑网络层、传输层和安全层双活,需要考虑应用、计算、存储三个层面的双活(网络可以考虑,距离近不是重点)。

6. 成本:因为要考虑其他三层的物理设备,双活成本较高

7. 保护范围:本地高可用是数据中心内;双活范围,两个数据中心最远可以达到300KM 

*本地高可用和主备区别

1. 保护范围:本地只能数据中心内,主备可以同城或异地

2. 存储层实现:本地高可用使用HyperMetro 主备使用存储设备的远程复制特性

3. RTO、RPO:本地高可用RTO和RPO理论上可以等于0 主备不一定

4. 工作方式:本地高可用同时提供业务,主备只有主提供业务

5. 负载均衡:主备无法实现负载均衡

*双活和主备区别

1. 工作方式:双活同时提供业务,主备只有主提供业务

2. 负载均衡:双活实现负载均衡 主备不可以

3. 资源利用率:主备只能达到50%;因为主工作时,备不工作

4. RTO和RPO:双活可以理论上实现 RTO=0 RPO=0

5. 实现方式:存储层,双活是Hypermetro 主备是同/异步远程复制

6. 范围:异地主备可以> 3000KM

7. 网络:双活需要打通业务网络 主备不需要打通

8. 业务切换:双活可以实现灾难发生时自动切换站点,主备需要管理员手动拉起

*同步远程复制和异步远程复制的区别

    同步远程复制和异步远程复制都可用于存储系统的容灾方案,实现数据的远程备份。两者的实现方式不同,并且应用于不同的业务场景。

    实现方式

        • 同步远程复制是对主LUN进行写操作的同时,将I/O写请求发送到从LUN,当主LUN和从LUN都返回写请求成功时,再返回主机I/O写请求成功,从而实现主LUN数据和从LUN数据的紧密同步。

        • 异步远程复制是对主LUN进行写操作的同时,在主站点记录本次写操作所修改的数据,待主LUN返回写请求成功后,就返回主机写请求成功。再通过用户手动触发或根据用户设置的触发条件自动进行同步操作,保证主LUN和从LUN数据一致。

    应用场景

        • 由于同步远程复制对带宽和数据时延有极高的要求,因此同步远程复制主要应用于主设备和从设备相距较近的容灾场景,如同城容灾备份。

        • 异步远程复制对带宽和数据时延的要求较低,因此异步远程复制适用于长距离或网络带宽有限情况下的容灾场景。

*双活数据中心每一层都需要实现双活吗?

不需要每层都要实现双活。 双活的定义是指两数据中心同时可以对外提供业务。 因此对 业务而言可以通过主备的方式, 也可以 AA 的部署方式。 把主备放在不同侧实现。

但是存储层要双活,因为要保障数据实时的同步,并且还要同时对外提供业务。

*同步复制原理

 

 

 

 

 

*异步复制原理

 

 

 

*HyperMetro的工作原理

 

 

 

1. 主机下发写I/O到双活管理模块。

2. 系统记录LOG。

3. 执行双写:双活管理模块同时将该写 I/O写入本端Cache和远端Cache。

4. 本端Cache和远端Cache 向双活管理模块返回写 I/O 结果。

5. 双写结果处理:等待两端Cache的写处理结果都返回,才向主机返回写I/O结果。

6. 判断双写是否成功。

• 如果都写成功:清除LOG。

• 如果有一端失败:LOG转换成DCL,记录本端LUN和远端LUN的差异数据。

*云容灾的服务(考到)

 

 

 

CSDR, 生产存储和容灾存储 存储复制。

CSHA, 镜像或双活。

VHA 镜像或双活。

容灾和备份有什么差别? 备份和容灾的区别

版本一:

1.备份是容灾的基础,一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份 

2.备份保护的是业务的数据,容灾保护的是整套业务系统(有配套的主机、存储、网络设备等) 

3.备份软件处理后的数据格式不一致(通常存放在会进行重删压缩、归档),必须恢复后才可使用,而复制或镜像软件处理后的数据格式不发生变化,直接挂载给主机即可使用。 

4.两者的数据保护的周期不一致,复制或镜像的时间周期更短。 

5.一般备份为数据保护的最后一条防线,偏向于归档这个层面更多。

版本二:

1. 对象区别:备份针对数据,容灾针对 IT 系统(业务)

2. 层次上:备份是容灾的基础

3. 距离不同:容灾两站点距离较备份站点远

介绍下华为容灾全景图

 

 

 

<关键点:

理解思路应该为:

范围:本地、同城300km内、异地300km外

需求:RPO、RTO值(这是衡量容灾解决方案的两个关键指标,应多从这两点思考、对比)

上述解决方案并非全部,只是在相应的容灾范围推荐的方案>

容灾解决方案的存储层实现

 

 

 

<关键点:

PPT中,华为的容灾解决方案,更多侧重点自身产品的实现,故存储层是重点,且存储层是数据容灾最常用的手段,是容灾的基础。

在此,RPO、RTO值也是只考虑存储层,整体解决方案的 RPO、RTO还需要考虑上层,如应用 层、网络层、计算层等

存储层特性的选择,取决于容灾的范围,进行决定的 RPO、RTO值

因VIS已停产,所以在上述表格未提及,VIS可以实现异步复制、双活

两地三中心容灾解决方案,实际上是同城容灾+异地容灾的组合,具体 RPO、RTO值,需考虑灾难级别,如数据中心级,那就考虑同城容灾,如果是城市级,那就考虑异地容灾

因异地容灾距离比较大,通常已超过100km,甚至是 200km,所以只能采用异步远程复制,并多采用广域网链接

>

存储特性对距离的要求

Hypermetro仅支持100km 内的容灾,25km以外需采用波分设备减少光衰减及链路复用降低 成本

同步远程复制仅支持200km 内的容灾

异步远程复制无距离要求,可根据距离配置合适同步周期

RPO、RTO

RPO 标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO 的值越小  RTO 标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO 的值越小

 

RPO、RTO是容灾的两个关键指标

RPO(Recovery Point Objective):即数据恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO 的值越小。

RTO(Recovery Time Objective):即恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO 标志系统能够容忍的服务停止的最长时间。 系统服务的紧迫性要求越高,RTO的值越小。

RPO针对的是数据丢失,而RTO针对的是服务丢失,RTO和RPO的确定必须在进行风险分析 和业务影响分析后根据不同的业务需求确定。

<补充: RPO、RTO的单位都是时间 >

两地三中心有什么好处?

相对同城容灾,它可以应对区域级的灾难,具备更高的容灾能力;

相对异地容灾,在生产站点故障情况下,具备更小的 RPO或RTO。

什么是双活数据中心?

双活数据中心解决方案是指两个数据中心同时处于运行状态,同时承担业务,提高数据中心的整体服务能力和系统资源利用率。两个数据中心的数据实时保持一致,当单设备故障甚至一个数据中心故障时,业务自动切换,数据零丢失,业务零中断。

<关键点:

双活数据中心具备如下特点:

属于同城容灾方案

两数据中心同时对外提供业务

互为容灾、自动切换

数据零丢失、部分业务零中断(业务不中断不是必要标准)

如何实现六层双活数据中心

 

 

 

 

 

 

 

双活数据中心的存储层一定要采用HyperMetro?

如果存储层采用华为V3存储设备的话,那么一定要采用HyperMetro。HyperMetro 能让存储层实现双活,利用该特性可以配合应用层或计算层的自动切换的特点,保障数据的可用性及路径最优。

<引伸:

HyperMetro提供的存储双活特点,才是关键。如果存储层采用别用产品或方式能够实现双活或类双活的目的,也是可以的。

>

本地高可用的组网和具体原理(双活 HyperMetor)

包括本地双活和本地镜像本地。

双活原理:

 

 

 

 

 

 

 

 

 

本地镜像:

   

 

 

 

 

 

 

本地高可用组网图

 

 

 

<补充:

上图只考虑存储层组网,采用交叉组网

SmartVirtualization+Hypermirror 组网相同

除了存储层需要阵列特性配合外,主机层、应用层需要做集群。

>

主备容灾的组网和具体原理(VRG 主备)

这里只介绍存储侧的组网,主机侧的请看 FusionSphere 场景容灾实现方式

注意:主备容灾计算层是两个 VRM

 

 

 

 

 

主备容灾组网图

 

 

 

<注意点:

存储层网络设备直接相连

存储层需要打通,业务网络不需要打通

FusionSphere主备容灾存储复制容灾的组网

 

 

 

 

 

<补充:

图一组网图并不严谨,未实现两BCManager通信。可以单独网络,可以通过打通两管理平面实现。

存储设备需要接入管理网络,被BCManager接管

两站点存储设备通过两站点的存储层网络设备链路实现数据容灾

存储复制容灾实现的本地高可用、双活、两地三中心,与通用容灾组网类似

FusionSphere主备容灾主机复制容灾的组网

 

 

 

 

 

<关键点:

图一组网图并不严谨,未实现两BCManager通信。可以单独网络,可以通过打通两管理平面实现。

存储平面无需打通

BCManager无需管理存储设备

建议给CNA节点单独配置容灾业管管理接口,让其与 VRG通信,不配置则走CNA管理接口

VRG与VRG之间通信需要配置主机 IO复制平面

VRG需要被 BCManager 接管

HypereReplication的工作原理

同步远程复制和异步远程复制

<附加:

同步远程复制主从端并不打快照,异步远程复制主从端打快照。源端快照目的是定格数据,保障数据一致性,从端快照目的是假设异步失败,可回滚到开始前的状态。

>

双活数据中心组网和具体原理

注意:双活容灾是一个 VRM

 

 

 

 

 

<关键点:

存储层网络设备直接相连,或通过波分设备相连

业务网络核心交换机直接相连,或通过波分设备相连

存储层需要打通,业务网络也需要打通

采用波分设备原因为:减少光衰减及减少DCI 链路成本(由4对裸光纤降至2对)

双活数据中心,除了存储层需要阵列特性配合外,主机层、应用层需要做集群。

六层双活:存储层、主机层、应用层、网络层、安全层、传输层

两地三中心组网和具体原理。有什么区别?

 

 

 

 

 

 

 

 

 

 

 

 

 

FusionSphere 场景容灾实现方式

主机层组网

 

 

 

背景:使用 FusionStorage 或者非华为存储作为存储资源时,不能使用存储远程复制与 BCManager 结合实现容灾,所以将存储复制功能上移,让 FusionSphere 来实现主从数据中心的数据复制,此时 Fusionsphere 中需要部署 VRG(本质上是一个虚拟机,作用是充当虚拟化远程复制网关,从而实现主机层远程复制),从端同样需要部署 VRG,作为数据复制的接收者。

原理:在使用主机复制容灾时,一般在两地分别建立生产站点和灾备站点。利用 FusionCompute 虚拟化平台的 IO 分流技术,实现捕获生产端虚拟机的实时 IO 数据并异步复制到灾备端虚拟机卷中。

在生产站点和灾备站点分别部署 VRG,主机中的 IOmirror 负责捕获虚拟机 IO,生产端VRG聚合虚拟机的IO数据发送至灾备端VRG,由灾备端的VRG分发到指定主机的 WriteAgent上,由WriteAgent写入虚拟机的卷中,完成虚拟机IO的远程异步复制。

 阵列层容灾:

1、利用底层 SAN 存储的远程复制特性,实现容灾虚拟机的数据复制和保护。可支持同步远程复制和异步远程复制。

2、 利用底层 SAN 存储的 Hypermetro 双活特性,实现容灾虚拟机的数据一致性保护。

说华为有哪些容灾产品

1、RD:数据库应用容灾 

2、UltraVR:虚拟化容灾

3、BCManager:数据库,虚拟化应用等容灾场景进行整合 

4、BCManager eReplication:针对 OpenStack 云 DC 容灾

考试追问:

应用层数据库应用是怎么实现双活的?

数据库软件自己的技术 比如oracle RAC、IBM DB2

同步远程复制和双活有什么区别?

同步远程复制技术是主备容灾使用的,它是写复制时,对端也写IO成功才返回写成功。双活是通过hypermetro特性实现的双活数据中心,当一端故障时,业务自动切换到对端,业务访问不中断。

RTO RPO

        实现方式

        成本

        存储层实现方式

        多路径软件设置

        业务切换方式

        业务网络是否打通

        资源利用率

        工作方式

双活数据中心一定是RTO和RPO等于零吗?

不一定,理论等于0 是否真的等于0要看实际

使用smartvirtualization一定是异构存储吗?

对,SmartVirtualization将不同型号的华为存储或异构存储元数据映射到本端存储中。

双活主机层能不能双活?

这里我没答好说能,跟考官纠结了一会儿,他说不能的。两站点ha,pro会大于零的

主机层比如fusionSphere的HA DRS DPM集群技术实现主机层高可用,但HA是虚拟机发生故障时才会HA,所以业务已经中断RTO>0,所以RTO RPO是不是一定等于0,要看实际。

主机层形成集群怎么配置实现?

两端站点加入一个集群,前提两端站点网络互通 才能加入到一个集群

双活数据中心的计算层如何实现?在你提到的fusionsphere大集群技术具体是怎么实现的?本地集群和跨集群有什么区别?

将两个数据中心的服务器添加至同一个大集群。主要用的是HA\DRS。(不知道这样答 对不对。后面两个问题  我不知道)

 

双活数据中心的网络层如何实现的?

(这点考官在点评的时候说想听的是通过VxLAN大二层技术实现)

数据中心间IP和FC网络互通。SLB本地负载均衡器负责数据中心内的请求负载,GSLB负载数据中心间的请求负载。

Tags: