­

星环科技 TDS 联邦计算能力,让企业异构数据源数据合作畅通无阻

在数据成为生产要素的今天,企业愈发需要更高效、简洁利用数据的方法来快速响应不断变化的商业和情报分析。传统方式是数据集成(ETL)后再做分析,但目前需求在变化,数据源也在变化,数据集成系统越来越庞大,导致响应变化的速度越来越慢,逐渐出现灵活度低、过程复杂、难以管理等问题。针对这样的困境,企业需要一种能更灵活、快捷地进行数据集成的方法,而这种方法就是数据联邦与联邦计算。

5189f0717a755ee8f57fd52111841af.png

数据联邦与联邦计算融合,一平台即可对同构或异构数据进行访问和分析

“数据联邦”以及“联邦计算”概念的出现,使数据集成的方法发生了极大的改善。**“数据联邦”解决了灵活统一数据视图的问题;“联邦计算”解决了灵活统一数据查询的问题。**而这两种技术结合可以提供虚拟的数据集成视图,以及封装后的数据加工接口,使数据消费者(企业应用)无需考虑数据物理位置、数据结构、操作接口和储存能力等问题,即可在同一平台上对同构或异构数据进行访问和分析。

a21cd334bec066b4a46188a684c84b1.png

数据联邦可以为企业的数据管理带来以下能力:

  1. 数据源松耦合:使系统间处于松耦合关系,数据源的添加与删除简单易行;

  2. 虚拟化的数据集成:与传统ETL相比,数据联邦仅进行了虚拟的集成,能更快、更低成本地集成大量数据,提升数据集成速度;

  3. 数据信息透明:用户不需感知数据源的位置和结构,数据源系统不需要做改动,可保持原有独立运作,数据处理灵活度得到提升;

  4. 减少数据冗余:因为通过虚拟视图而不是复制的方式集成,极大降低了数据泄露的风险,增强了数据的可维护性;

  5. 保证数据一致性:数据联邦统一管理数据,能更好保证跨库数据一致性。

数据联邦与联邦计算,打破企业数据孤岛

数据联邦和联邦计算解决了“数据孤岛”问题,并且避免了传统ETL流程长,开发和运维成本较高的缺陷,可以满足应用对数据采集有灵活性、实时性要求,或者存在异构数据源处理的场景:

快速灵活的采集数据

虚拟的操作型数据库(ODS):通过虚拟操作型数据存储(ODS),构建可操作的数据集成视图,数据变化会很快反映到ODS,且联邦的数据源可随具体的分析需求灵活增减变化,因此能满足一些轻量、短期的数据分析,或者实时灵活的仪表盘应用。

建造数据中转区:利用数据联邦构建数据中转区,可以对大量从生产系统进入数仓的数据进行快速合并,极大减少数据复制对生产系统的干扰。数据中转区对数据变化的实时存储,能记录完整的数据变更信息。

数据仓库的扩展:企业部署数据仓库后存在问题,一方面,整个企业不太可能只使用单一数仓;另一方面,企业仍然有大量的数据未存入任何数仓,需要构建统一视角。而数据联邦和联邦计算能在无需转换格式和移动数据的情况下,提供所有企业数仓和零散数据的统一视角,降低了数据移动转换的成本。

异构数据源的处理

企业数据治理:联邦后的数据构成数据治理的底座,对异构数据库或数据平台提供统一管理,形成统一的数据治理流程和规则。经过治理后,企业可以构建出完整的数据信息资产列表,如企业数据资源,或者完整的客户信息视图等,可对这些资产进行共享交换。

异构平台迁移:在异构平台迁移过程中使用联邦计算,能使迁移过程更平滑,无需考虑数据的迁移和异构平台语法不兼容等问题,保证应用对数据的使用不受影响,且能在迁移完成后在不影响新应用的前提下更改数据源配置。

异构数据分析:企业可以利用数据联邦的能力,实现跨结构化数据、非结构化或者半结构化数据的分析。

星环科技自研的联邦计算平台,联邦多个同构或异构的自治数据源

联邦计算的关键点**即实现基于统一的SQL查询引擎。**星环自研的联邦计算平台可以联邦多个同构或异构的自治数据源,用户可以随意查询在联邦系统中任意位置的数据,而不必关心数据的存放位置、实际数据源系统的SQL语言种类或存储能力。其架构如下图所示,主要实现了对以下两方面的统一:

1.统一的元数据管理

构建各个同构、异构数据源的抽象整体视图,提供统一数据源连接管理、统一的元信息管理。

数据源连接层:通过联邦计算平台,开发者可以构建跨数据库实例的虚拟连接,从而在当前数据库中实现跨库访问。该层负责管理接入数据源,既支持传统数据源的连接,也支持大数据平台的连接;既支持结构性数据,也支持非结构数据接入。

元信息管理层:从各数据源获取元信息并集中管理,通过对数据源的查询来获取和维护最新的元信息,从而保证元数据在各个平台之间的一致性,在构建、运行、维护的整个联邦计算的生命周期中起到关键支撑作用。

2.统一的查询加工接口

为联邦的数据提供数据加工、数据查询的统一接口,用统一的标准SQL语句实现跨平台的数据加工。

联邦查询SQL引擎层:作为统一的语法解析层,解析SQL指令。其核心是SQL编译器、优化器和事务管理单元,它是保证可以给开发者提供比较好的数据库体验,无需基于底层不同平台且有差异化API来做业务开发,同时会经过优化器来生成最佳的执行计划,最终将执行计划推送给计算引擎层。

联邦查询计算引擎层:作为支持多平台的统一计算引擎。星环选择了基于DAG的计算模式,而且在它的基础上深度优化执行性能,既能支持更多样化的数据计算需求,也能够获得极致的性能。同时通过量化执行引擎技术来加速数据处理,对于列式数据有明显的加速效果。

Cache层:用于加速的缓存层。

联邦平台访问层:支持标准的JDBC/ODBC/REST接口。

除了有基础架构作为支撑,联邦计算的落地还需要有上层的数据开发工具的支持,与数据联邦配合实现从数据获取、加工、到价值变现的完整过程,同时跨数据源的数据安全也应该得到保证。

开发管理运维工具:统一的数据开发、管理、运维工具平台,使企业可以更有效率的利用联邦计算构建企业内部的数据服务层,以及数据业务价值层。

安全层:负责认证、审计、授权,提供数据加密、脱敏,以及密级分类等功能,保证数据在存储、传输、加工过程的安全。

57dcfee331fcb4e27bceaa4fdf61ea5.png

数据联邦和联邦计算的实现

数据联邦和联邦计算的价值在于为数据集成和集成后的加工提供了便利的实现方式,对于企业而言,相关的完整解决方案以及可视化的操作,是保障内部推广落地的关键。星环科技研发的数据治理平台Transwarp Data Studio(TDS),作为企业级的数据加工平台,联邦计算/数据联邦是TDS的核心能力之一,除此之外还提供数据集成、存储、治理、建模、分析、挖掘和服务等数据处理全生命周期的企业级管理能力。

6350676defdc4bc9f223690530177c7.png

从应用层面的角度,数据联邦要打通异构数据源,实现系统性的数据共享、发布,从而支撑应用,为此开发平台应该提供元数据管理、数据资产列表、以及服务发布等保证数据视图统一的功能,在TDS中通过以下模块实现:

统一数据资产目录(Transwarp Data Catalog):一方面,Catalog同时支持接入主流关系型数据库、分布式数据库、NoSQL数据库和BI等数据源,满足异构多数据源连接的需求。另一方面,Catalog通过数据库直连方式获取所有异构数据库或平台的技术元数据,结合外部API方式补充异构数据库的数据血缘数据,实现平台的数据管控和追踪,满足数据联邦的元数据收集管理需求。

统一数据门户商城(Transwarp Foresight):能够整合各个平台上的数据产品并作为技术与业务的核心交换门户,用较低开发和运维成本提供高性能的全数据平台的数据产品的共享交换服务。

统一数据服务(Transwarp Midgard):可通过数据库直连方式,将各类数据库的数据发布为数据服务,同时提供统一的安全管控和流量统计、控制。

统一数据标签(Transwarp Starviewer):支持对所有业务系统数据库和数据平台的数据进行高性能的标签计算,对业务用户提供统一的标签开发和应用入口,同时避免业务数据库的种类多样和分布繁杂给业务用户带来的使用困扰。

从开发层面的角度,TDS的开发模块对接星环自研引擎的联邦计算能力,实现对异构数据源的统一访问和加工,通过联邦计算解决数据开发、数据管理等涉及跨库数据源加工过程的问题:

  1. SQL开发(Transwarp SQLBook):在线SQL开发工具SQLBook可结合联邦计算能力将SQL下发到异构数据平台,使用统一的语法访问异构数据源,简化数据加工。同时提供大数据集成,将Hadoop和NoSQL系统中的数据通过SQL的形式访问,实现一个统一的SQL开发入口。

  2. 数据管控工具(Transwarp Governor):能通过数据标准、数据质量、数据保护和数据权限等多维度能力支撑数据治理。将统一的数据质量规则直接下发到各个数据源平台,降低数据质量规则的开发成本,且保证异构平台统一的数据质量。

  3. 革命性的ETL模式:考虑到数据联邦虚拟化的集成不能满足所有数据加工情况,TDS提供了创新的ETL工具,在不增加过多人力的情况下,能极大降低数据的复制和迁移需求,提升数据应用的搭建效率,降低存储成本和数据泄漏的风险。

对于应用和开发层面的“联邦”支持,以及全流程可视化数据开发、监控、运维与告警,使TDS可以通过实现多数据源、数据多样场景下的数据接入、数据整合、数据服务过程,有效实现企业级数据湖、数据仓库、数据集市建设以及相应扩展,促进企业内部数据统一化、资产化。

1e92797076bbe8788f1faec93a7d3cf.png

Tags: