破解湖+仓混合架构顽疾,星环科技推出自主可控云原生湖仓一体平台

动图封面

近些年来,随着企业数字化转型持续推进,在数据的分析利用方面,其广度和深度都在不断向外延伸。在分析广度方面,主要体现在所分析数据的类型以及分析场景更加多样化、多元化;在分析深度方面,主要体现在更关注多源异构数据的融合分析以及基于数据科学技术进行数据价值的深度挖掘。

与此同时,为了满足多样化的数据分析需求,企业数据平台架构也在持续演进。单一数据湖和数据仓库已不能顺应数据分析的发展趋势,越来越多企业开始基于“湖(Hadoop技术体系)”+“仓(MPP技术体系)”的混合架构打造自己的企业级数据平台。这种混合架构融合了“湖”和“仓”各自的技术优势,可以在一定程度上支撑企业多样化的数据分析场景,但是在数据平台的易用性、可维护性、数据处理效率以及存储成本方面都存在一定的不足。

星环科技政府与公共事业部系统架构的负责人徐流明介绍说,“湖(Hadoop技术体系)”+“仓(MPP技术体系)”的混合架构是在数据平台架构演进过程中技术向业务妥协的一个产物。Hadoop技术体系在设计之初主要是为了解决海量数据的离线批处理问题,在高并发数据集市、即席查询、事务一致性等方面存在先天不足;而MPP技术体系是从关系型数据库演进而来,对事务一致性、OLAP分析性能都有比较好的支撑,但是在分析场景方面存在比较大的局限性,主要以结构化数据分析为主,无法支撑半/非结构化数据存储、实时计算、机器学习等场景。同时,在前些年,业内又没有比较成熟的技术体系能够同时满足“湖”+“仓”的所有场景,所以才催生了“Hadoop+MPP”的混合架构。

然而,随着多模型数据库技术的兴起,“湖”“仓”之间的技术壁垒有望被打破,湖仓一体的概念也应运而生。所谓湖仓一体,就是融合数据湖和数据仓库的一种新型开放式数据平台架构,将数据湖和数据仓库的优势充分结合,构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理、分析和管理功能。

从技术角度看,“湖仓一体”架构是以多模型数据平台技术为依托,打破传统Hadoop+MPP混合部署模式,实现湖仓技术架构统一。未来,湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数据仓库架构。

以需求为牵引,湖仓一体时代来临

任何技术的更新迭代都是以需求为牵引的,数据平台的建设也不例外。近年来,数据分析需求的演进趋势体现在四个方面:

第一,数据类型多元化。由原来的以结构化数据为主,转变为结构化、非结构化、半结构化和实时消息数据共存的情况。

第二,分析场景多样化。由原来的以统计分析为主,转变为统计分析、标签分析、全文检索、 预测分析、甚至是基于图数据的推理分析等共存。

第三,分析时效实时化。由以离线分析为主,转变为实时分析、交互分析、自助分析等。

第四,数据管控统一化。由原来的弱管控模式转变为了强管控,体现在统一数据标准、统一数据存储、统一数据治理以及统一数据视图。

在需求演进的趋势下,企业级数据平台架构也进行不断迭代,主要经历了四个阶段:

数据库阶段。在上个世纪80年代,数据分析主要是基于业务数据库,做一些单系统的简单分析。

数据仓库阶段。到了90年代,数仓的概念开始兴起,各个企业开始构建自己的数据仓库平台,把业务系统数据都抽取到数仓之中,进行一些多维的、关联性的、融合性的BI分析,以辅助决策。

数据湖阶段。到了2010年前后,随着大数据技术的兴起,数据湖的概念随之而来。数据湖不仅支持结构化数据的处理,同时还支持半结构化、非结构化数据的存储和查询。同时,在数据应用场景上,也更加的多元化,出现了实时分析、全文检索、机器学习等一些新型的分析场景。

在这一阶段,大家的关注点在于用不同的技术栈来支撑不同的数据分析场景,对数据平台架构的易用性、可维护性却没有过多的关注,导致很多企业建设的数据平台架构非常之复杂,为后期平台迭代以及运维都造成了很大困扰。

湖仓一体阶段。近两年来,湖仓一体的概念兴起,企业开始逐步关注数据平台架构问题,更强调通过统一的架构,依托一个一站式的多模型数据平台来解决数据湖、数据仓库多样化的数据分析场景。

技术向业务妥协,“湖+仓”混合架构面临多重挑战

在湖仓一体的概念出现之前,其实业内湖+仓的混合架构已经存在了多年,而且有些企业把这种湖+仓的架构也称为湖仓一体,实际上湖仓一体并不等于简单的数据湖+数据仓库。

湖+仓混合架构有几个比较典型的特点:

数据湖和数据仓库是两套相对独立的体系,混合部署在一个数据平台上。数据湖是基于Hadoop技术来实现,主要用于支撑多源异构的数据存储,执行批处理、流处理等工作负载。数据仓库主要基于MPP或者一些关系型数据库来实现,主要支撑结构化数据在OLAP场景下的BI分析和查询需求。湖和仓是互相独立的,通过ETL实现数据的交换。

这种架构可以在一定程度上解决企业多场景的数据分析需求,但是也有一些明显的弊端。

第一,混合部署架构较为复杂,导致架构设计和项目实施交付成本较高,且后期平台运维难度较大。

**第二,数据冗余非常明显,增加存储的成本。**Hadoop和MPP都属于分布式系统,分布式系统为了保障数据的高可靠性,一般都是通过冗余备份的方式实现的。两种技术本身都已经做了数据的冗余备份,采用混合架构又避免不了有部分的数据既存在Hadoop平台,又存在MPP平台,进一步增加了数据冗余的比例,增加存储的成本。

**第三,数据处理的链路过长,影响查询的时效性。**通常数据处理要先入湖,进行批处理后再入仓,在数仓中进行主题建模分析,最终为上层提供查询服务,整个加工链路相对比较长,而且中间有湖入仓还要进行一次ETL,影响查询的时效性。

**第四,数据的一致性问题,增加了数据校验成本。**无论是由湖入仓还是由仓入湖,实际上在混合架构下都是在两种数据平台间的数据迁移,在迁移的过程当中难免会出现数据一致性问题,增加额外的数据校验成本。

湖+仓的混合架构是技术向业务妥协的一个产物,并不是真正意义上的湖仓一体平台。在前些年,业内没有比较成熟的技术体系能够同时满足“湖”+“仓”的所有场景,所以才催生了“Hadoop+MPP”的混合架构。

打破“湖”“仓”技术壁垒,湖仓一体是未来演进趋势,其特点有几个方面:

**多模存储:**湖仓一体平台具备统一数据存储管理能力,支持结构化、半结构化、非结构化的数据统一存储,同时支持多种数据存储模型;

**架构统一:**湖仓一体具备4层统一架构。在资源管理层可以实现统一的资源调度框架,支持计算和存储单元弹性伸缩;在存储层具备统一数据存储能力,实现多源异构数据统一管理;在计算层支持统一计算引擎,可以实现跨模态数据的融合分析;在接口层支持统一数据接口,能够为上层应用提供统一易用的查询接口。湖仓一体架构统一,可以避免混合架构带来的开发难、运维难、存储成本高、数据处理效率底等问题。

**性能卓越:**湖仓一体平台性能更卓越。因为在统一架构下,数据湖和数据仓库都是采用一体化设计,减少了数据加工的链路,增加了资源的复用性,时效性更好。

**全面赋能:**通过湖仓一体平台,可以同时满足“湖”“仓”的数据分析需求,支持多样化的业务场景,能够为企业级各类业务系统、各种分析场景提供全面赋能。

“湖仓一体”架构以多模型数据平台技术为依托,打破Hadoop+MPP混合部署模式,实现湖仓技术架构统一,属于真正的湖仓一体平台。

自主可控,星环科技“湖仓一体”的解决之道

星环科技推出的湖仓一体解决方案,总体分为五层架构:

第一层是基础设施层,可以兼容信创自主可控的硬件生态,兼容主流X86及ARM架构服务器,支持CentOS、Redhat、麒麟V10、统信UOS等主流操作系统,同时支持ARM与X86架构混合部署。

第二层是统一资源管理层,星环科技推出基于云原生技术的容器化操作系统TCOS,提供统一的资源调度框架,通过容器化编排,能够统一调度计算、存储、网络等各类基础资源。

第三层是统一存储管理层,星环科技研发了统一的分布式数据管理系统TDDMS,为不同存储引擎提供公共的存储管理服务,保障数据一致性,实现数据统一管理运维和高可用。目前分布式数据管理系统接入了9款存储引擎,支持10种数据模型的存储。用户不需要为不同模型建立单独的存储系统,而是通过统一的存储管理,降低了运维管理成本,也避免了数据孤岛。同时分布式数据管理系统的插件特性,也方便后续业务的灵活扩展,可以根据需要接入其他存储引擎。

第四层是统一计算引擎层,基于分布式计算引擎Transwarp Nucleon可以根据不同的存储引擎自动匹配高性能算法,不仅可以支持批处理、流处理等不同类型计算任务,还支持跨模态数据的融合分析,方便用户在一个SQL中使用不同模型的数据,降低开发难度,提升开发效率。

第五层是统一数据操作层,主要提供标准的SQL语法支持,可以实现统一接口处理不同的业务和不同数据模型,只需要简单的SQL语句即可完成各种复合跨模型数据查询,无需访问不同接口即可操作不同的数据模型。对于场景切换、数据库切换而造成接口、开发语言切换的问题就不存在了,开发和迁移成本大大降低。

贯穿这五层架构,星环科技湖仓一体平台还提供了全生命周期的数据管控能力,可以实现多模态数据以及元数据的统一管控,同时还支持统一的多租户管理,可确保在湖仓一体平台上的租户从资源层、数据层、应用层等都能实现完整隔离。

八大特点引领,星环科技湖仓一体平台赋能用户

那么星环科技的湖仓一体平台有什么特点呢?

云原生。基于云原生的架构,提供容器化的底座,可以根据业务负载自动弹性扩缩容,提高整体资源利用率。湖仓一体平台各组件采用微服务架构设计,按照功能模块进行切分,在横向扩展以及版本更新方面都具有更高的灵活性。

多模态异构存储。星环科技提供一个多模型的数据管理平台,能够提升场景的查询效率,针对同一份数据可以采用多种数据模型存放,解决不同场景的效率问题。

1湖N仓多租户体系。面向集团型企业,可以提供1湖加N仓的多租户体系。在集团本部构建一个中心租户,在中心租户中建设集团级数据湖,梳理统一的数据资产目录,形成数据资产视图,同时面向集团层面业务分析需求,建设集团级数据仓库。针对集团下属的业务部门、分子公司,或者一些数据创新团队,可按需建立自有的租户,在租户内有独立的资源环境,有独立的一套数据开发平台和工具,可以通过共享统一数据湖的数据,建设面向自己业务和主题的数据仓库和数据集市,满足个性化的数据分析需求。

自主可控。自主可控主要体现在两个方面,对内,星环科技一直在坚持技术创新,实现全面自主可控。对外,星环科技也在积极的和信创的上下游去做兼容适配,拥抱整个信创生态。

总体而言,星环科技湖仓一体平台的优势包括多模存储、技术创新、批流协同、统一SQL、弹性伸缩、信创自主、全栈工具、降本增效等8大优势。

目前,星环科技湖仓一体解决方案已经在金融、政府、交通、邮政、医疗、能源等行业以及部分大型国有企业落地应用,典型客户包括中化集团、中国邮政集团、广州农商行等。