星环科技多模型大数据基础平台TDH9.0:十种数据模型组合拳 打通大数据业务全场景
星环科技大数据基础平台Transwarp Data Hub(TDH)从2013年开始发布2.0版本至今,每年都会发布一个大版本,经过多次迭代和技术升级,到2021年TDH8.0发布,TDH已成为一个企业级大数据基础平台,基于其领先的多模型技术架构,8种异构存储引擎支持10种数据模型,被广泛应用在离线数据批处理、高并发的在线数据服务、数据集市、数据仓库、数据湖、实时数据处理等各类大数据业务场景。
此外,通过星环科技的不断自主研发,TDH成为一款国产化自主可控的大数据基础平台,可以替代Oracle、IBM DB2、Teradata等传统主流数据库在分析型场景中的应用及替代Elastic Search在分布式搜索场景中的应用,并在政府、金融、能源、制造业等十多个行业内落地。同时TDH完成了与主流信创生态厂商的适配互认工作,满足信创验收要求,帮助企业打造更全面、更便捷、更智能、更安全地国产化数字底座,加速企业数字化转型。
近日,星环科技正式推出TDH9.0,基于多模型统一架构对多模型处理能力进一步加强,新增文档存储引擎的同时实现了各模型引擎性能的数倍提升,统一大数据存储底座提升5倍数据碎片承载能力,强化了存储规模与可靠性,同时新增平台智能运维模块,完善的智能运维体系帮助用户更轻松地运维大数据平台。此外,基于容器安全网络提升了数据访问的安全性,结合自身基础安全组件以及大数据开发工具,为用户数据全生命周期提供安全防护。TDH9.0从整体上进一步提升了平台综合性能、可靠性、易用性以及安全性,为企业数字化转型构建了统一、高性能、高可靠的新型数字底座。
多模型统一架构 易开发、易运维、高性能
TDH9.0核心依然是统一架构的多模型处理能力,基于多模型统一技术架构提供统一的接口层,统一的计算引擎层,统一的分布式存储管理层和统一的资源调度层。
统一接口层:基于统一的SQL编译器Transwarp Quark可以实现统一接口处理不同的业务和不同数据模型,只需要简单的SQL语句即可完成各种复合跨模型数据查询,无需访问不同接口即可操作不同的数据模型。对于场景切换、数据库切换而造成接口、开发语言切换的问题就不存在了,开发和迁移成本大大降低。
统一计算引擎层:基于分布式计算引擎Transwarp Nucleon可以根据不同的存储引擎自动匹配高性能算法,不仅可以支持批处理、流处理等不同类型计算任务,还支持不同模型数据的流转与关联,方便用户在一个SQL中使用不同模型的数据,降低开发难度,提升开发效率。
统一的分布式存储管理系统:为不同存储引擎提供公共的存储管理服务,保障数据一致性,实现数据统一管理运维和高可用。当前TDH分布式数据管理系统接入了9款存储引擎,支持10种数据模型的存储。用户不需要为不同模型建立单独的存储系统,而是通过统一的存储管理,降低了运维管理成本,也避免了数据孤岛。同时分布式数据管理系统的插件特性,也方便后续业务的灵活扩展,可以根据需要接入其他存储引擎,例如TDH9.0根据文档处理的新需求,新接入了文档存储引擎DocStore。
统一的资源调度层:TCOS是星环科技自主研发的云原生操作系统,提供统一的资源调度框架,通过容器化编排,能够统一调度计算、存储、网络等各基础资源。TCOS还支持灵活、按需的异构硬件(X86,ARM混合部署)、异构操作系统的水平扩展,支持单独扩展计算或存储资源的水平扩展,避免因业务数据增长带来的资源紧张而需进行繁琐的扩容、迁移等工作。同时,也提供了相比虚拟机损耗更低的资源隔离能力,使不同租户、不同应用,资源隔离互不影响。
在开源大数据方案中,为了实现不同业务需求,通常需要部署多个不同的产品,比如为了做数仓需要Hive,为了做精确查询需要Hbase,为了做搜索业务需要ES等等。这些不同的产品首先在接口标准就不一致,Hive使用HiveQL,ES使用Restful API,Spark虽然API和SQL都支持但是标准也和Hive、ES不一样。用户需要学习适配多个产品的不同接口,开发成本高。同样的,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自的生态中难以互通,若需要把数据从一个产品导入到另一个产品中,需要通过文本离线导入导出,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。数据往往在离线流转过程中,可能因为编码或浮点数精度问题,导致数据不一致,最终影响业务准确性。各自独立的计算引擎若部署在同一节点上,也可能会引起计算资源竞争问题。
相比之下,TDH多模型统一架构,把多种数据模型的接口层、计算引擎层和分布式存储管理统统抽象了出来,避免了多个接口标准不统一,避免了计算资源的抢占,避免了存储不统一。一个SQL就可以实现不同数据模型的操作和查询,模型转化流转以及跨模型关联分析,解决了不同模型数据之间的组合使用问题。与开源传统方案架构相比,TDH统一架构的多模型架构具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。
以一个具体的跨模型联合分析应用场景来介绍下多模型统一架构的优势。例如,当需要研究30岁人群消费习惯和喜好时,可以将该人群消费的商品评价作为一个参考。那为了获得该人群对某商品的评价数据,我们需要进行三次检索,并需要使用到图数据库中的人群关系型数据,关系型数据库中的人群消费记录数据,以及搜索引擎中消费商品评价数据。
第一步,定位30岁的人群。首先连接到图数据库中,使用图数据库查询语言Cyper,找出30岁人群一度关系的人群ID集合。
第二步,获取该人群的消费记录。拿到了30岁人群ID后,需要再连接到关系型数据库中,使用SQL查询语言,用第一步获取的人群ID作为过滤条件,获取该人群消费商品ID,找出这些人群消费了哪些商品。
第三步,获取包含特定关键词的商品评价。用户需要连到搜索引擎,编写RESTful API请求,使用前两步获取的人群ID和消费商品ID,检索商品评价。
为了完成这个业务,用户需要搭建3个独立的数据库,并在应用适配3种数据库的连接方式和查询语言,同时还要求开发人员同时了解这3种数据库的开发技术,整个流程非常复杂,技术要求非常高。
此外,由于是3个独立的系统,数据和可能存在不一致,比如说消费记录更新到了关系型数据库,但是相应的评价没有更新到搜索引擎中,导致分析语句的结果不准确。
而基于星环的多模型统一技术架构,用户只需用一句SQL就能同时访问这3种存储模型进行联合分析,替代了之前3段代码。一句SQL里,同时对图数据人群关系表,关系型数据消费记录表,全文数据商品评价表,3个表进行了跨模型关联,一次操作完成了之前三次操作才能完成的业务,大大简化了开发复杂度,简化用户操作。同时数据也仍保留在原存储引擎中,也不用对数据进行导入导出或者转换,不会存在数据不一致或数据冗余存储的问题。
多模型能力升级 更多、更快、更强
TDH9.0在原多模型能力基础上新增文档数据库,实现9种存储引擎支持10种数据模型,同时对存储引擎进行升级,提供更高的性能和更强的功能,帮助企业用户满足更多以及要求更高的业务场景。
-
关系型分析引擎Inceptor
关系型分析引擎Inceptor进一步提升了SQL兼容性,增强了SQL-2016标准支持度,改进了Hive语法兼容,帮助用户更方便地做应用迁移和对接;同时SQL编译器也进行了表达式,遍历算法,优化,在复杂SQL场景,最高可提升10倍编译性能。
此外,TDH 9.0兼容了分布式分析型数据库ArgoDB,来更好地支撑关系型分析场景。在这次发布的ArgoDB5.0版本中,对计算引擎、存储引擎、可靠性都做了重要升级,性能上相比于Inceptor提升了10倍数据扫描性能,10倍在线分析性能,实时数据入库,更是支持每秒每节点,百万的吞吐,大大增强了在关系型分析场景的性能。相比TDH Inceptor,ArgoDB不仅在数据仓库、湖仓集一体、联邦计算等老场景上具有更强的性能,同时还支持了实时数仓、高性能数据集市、AETP混合复杂、隐私计算等多个拓展场景。
-
图数据库StellarDB
图数据库StellarDB,图数据库可以用于知识图谱、知识推理、社区划分、子图分析等应用场景。StellarDB在TDH9.0迎来了4.0版本,除了易用性、安全性、开放性等全面升级以外,性能也获得了大幅提升。批量导入性能是开源产品的2倍,查询场景中六跳查询是开源的50倍,算法实现上,常用的pagerank算法和强连通子图算法性能都是开源的6倍。StellarDB通过功能的加强和性能的不断提升,帮助帮助企业用户更快、更高效地挖掘海量数据互联价值。
-
搜索引擎Scope
Scope是一款兼容开源生态的搜索产品,支持TDH统一SQL查询的同时,兼容ES生态,保障ES平滑迁移。相比开源产品,Scope基于Raft协议保障数据一致性,支持跨数据中心多活部署,可以构建两地三中心灾备方案,可靠性与容灾能力更强。日志存储解决方案中,因为数据量庞大,企业用户一般对搜索产品的存储容量较为看重。Scope单实例存储容量达到了100TB,是开源的5倍,同等规模下 Scope存储密度更高,可以帮助企业用户节约硬件成本,同时性能上,Scope相比开源也提升了30%分析性能和2倍检索性能,能更高效的分析检索海量日志数据。
-
时空数据库Spacture
时空数据模型主要是以地理经纬坐标与时间信息等数据为主,Spacture支持原生的时空数据类型和矢量数据,可以有效反映移动对象的运动过程。相比于开源时空数据库,Spacture的天然分布式架构,可以支撑横向线性扩展,比开源具备更强的时空分析能力。同时Spacture也兼容国家行业标准,和开源商业主流GIS软件,方便用户迁移对接。
-
时序数据库Timelyre
时序数据库Timelyre在TDH9.0升级到了2.2版本。时序数据在制造业IoT设备等场景中经常出现,用于监控设备或环境的一些指标,如温度、电量、工作状态等。由于设备量庞大,指标数据生成频繁,因此时序数据实时吞吐量庞大,历史存储需求容量较高。为了应对这类场景,Timelyre针对时序数据特征,改进压缩算法,进一步降低了20%~50%存储空间占用,提升2倍写入性能。同时相比于开源时序产品,Timelyre基于TDH多模型架构下的分布式扩展能力,让Timelyre具备了更多设备标签存储能力,以及基于TDH统一SQL分析能力,让Timelyre具备了复杂关联查询能力。
-
键值数据库KeyByte
Keybyte键值数据库支持高性能分布式缓存和高性能分布式锁两种场景。
高性能缓存是内存键值引擎较为常用的场景之一。开源键值存储引擎基于集群主备的分布式方案,一致性和稳定性都无法保障,容易影响线上业务的性能。
Keybyte键值数据库基于单机KV内存存储引擎实现了分布式强一致性的KV存储能力,同时还支持内存用量限制和丰富的过期淘汰算法,保障了服务的可靠性和稳定性。同时还兼容了TDH统一SQL引擎的复杂分析能力,应用场景更丰富。
-
文档数据库DocStore
文档数据库DocStore是TDH9.0全新推出的存储引擎,支持半结构化数据XML/JSON、非结构化数据图片/PDF/小文件的同时也支持结构化数据存储。
相比于其他存储引擎,文档数据库DocStore更关注于文档数据的高性能检索。支持海量文档数据的存储的同时,检索上通过支持多种索引技术来加速文档数据的检索性能,目前可以支撑百万级高并发、毫秒级延迟的数据检索能力。
统一大数据存储底座升级大容量、高性能、稳定可靠
TDH9.0对大数据存储底座进行了重大升级,统一分布式数据管理系统TDDMS和分布式文件系统TDFS提供更稳定的小文件管理能力和访问性能,提升了存储可靠性,保障数据安全不丢失。基于星环分布式交易型数据库KunDB提供元数据服务,提供更高性能、更加可靠的元数据处理服务。星环科技分布式数据管理系统TDDMS在TDH9.0升级到了2.0版本,在存储上优化了对数据碎片文件的处理能力,提升了5倍数据碎片的承载能力,在同等硬件和数据分布条件下,可以存储管理5倍的表对象。同时TDDMS2.0改进了数据修复能力,可以更及时得自动完成数据故障迁移与副本修复,提升了数据安全性与服务可用性。
另一个较大的更新是TDDMS2.0支持了多模型数据自动同步的能力,不同存储模型的数据可以基于统一的日志系统binlog,实现数据在不同存储模型间的自动转换。例如,实时数据写入到关系型分析引擎时,可以通过TDDMS同时自动同步一份副本到图数据库和时序数据库中,方便用户直接进行图分析和时序分析,大大增强了业务实效性,降低了开发复杂度。星环科技分布式文件系统TDFS主要负责兼容开源Hadoop生态体系的文件存储能力。开源体系中,主要使用HDFS作为分布式文件存储系统,但是开源HDFS在架构上存在一定瓶颈。开源HDFS的需要将文件元数据存储在NameNode节点内存中,由于单节点内存有上限,因此无法管理大集群海量文件,也无法处理大量小文件的存储。
星环科技分布式文件系统TDFS基于开源HDFS架构,在保留了存储节点DataNode的架构下,改写了元数据存储模块,使用了星环自研的Name Manager和Block Manager作为替代。相较于HDFS,TDFS元数据基于Raft协议进行分布式一致性管理,兼容Hadoop生态的同时,容错性更强,不存在单点瓶颈。由于解决了海量小文件管理问题,TDFS除了支持分布式文件系统以外,还支持对象存储,支持文件存储和对象存储两种模式并行运行。
在4节点测试环境中,TDFS支持10亿以上文件数稳定运行,远超开源HDFS 5倍文件数管理能力,元数据QPS比开源快1.7倍,能支撑更高吞吐的业务场景。同时TDFS比开源HDFS重启速度快16倍,在一些运维场景下能更快的恢复服务。在TDH9.0中,元数据服务基于星环科技分布式交易型数据库KunDB作为底层存储,在元数据并发访问场景下,相比于TxSQL,KunDB TPS最高提升3.6倍,QPS最高提升4.4倍。元数据服务的升级可以综合提升TDH大数据平台底座基础,保障更强的一致性、更高的性能、更可靠的元数据存储能力。
智能运维,安全无忧
运维方面,TDH一直致力于提升产品运维易用性,降低运维难度和成本。TDH9.0推出了智能运维模块,结合了大数据技术特征与业务最佳实践,通过对TDH平台上大数据服务特征指标的收集,基于智能运维规则库匹配判断,提供集群改善运维建议,保障集群长期高效稳定运行。
例如,在数仓数集场景下,一般需要对关系型数据进行分桶存储,不合理的分桶会影响集群的稳定性和处理性能,智能运维模块可以通过收集集群中表的分桶大小来帮助用户判断当前的分桶是否合理,提前给出分桶改进建议,避免后续因分桶问题的进一步恶化导致集群不稳定。类似的,智能运维模块还会根据集群历史存储用量分析,提供预警式扩容计划建议,通过分析集群计算资源使用率,提供资源配置优化改进建议。
智能运维模块包含100多个智能运维规则,开箱即可用,帮助用户更轻松地运维大数据平台。数据安全是近期比较火热的话题,也是用户比较关注的问题。TDH9.0升级了网络安全策略,使用了Overlay容器安全网络。通过网络虚拟化的方式,隔离物理网络,用访问权限控制的方式管理集群网络和外部网络的直接访问,避免了未授权的外部访问以及内部数据的泄漏,降低了用户管理难度,提高了集群网络可用性、安全性和可靠性。除了容器网络隔离以外,TDH结合自身基础安全组件以及大数据开发工具TDS,保障用户在数据开发过程中,获得全生命周期的数据安全防护,从数据采集、传输、存储,到处理、流通、销毁,每一步都提供了全面的数据安全技术保障,如加密、脱敏、权限、审计等功能一应俱全,在完善的大数据平台安全体系下,可以方便用户建立起数据安全环境与操作流程,保障数据安全。
TDH社区版让大数据分析触手可及
星环科技一直致力于大数据技术的创新以及大数据技术人员的培养。TDH经过9年的迭代,已经取得了一定技术的积累和行业经验,此次星环科技新推出TDH社区版,为企业用户、高校师生、科研机构以及其他专业开发人员提供更轻量、更简单、更易用的数据分析开发环境。社区版提供星环最具竞争力和最成熟的Inceptor组件、Waterdrop等自研开发工具以及Hadoop 3.0和星环科技的精选组件服务等,为用户构建批处理数据仓库、数据湖等提供平台支持。TDH社区版同时具有轻量资源即可高效部署,简单易用,便捷运维,以及性能优异等优点。
为满足多人群需求,TDH社区版分为订阅版和免费版。其中订阅版面向企业级用户,无节点容量限制,可以提供更高级别的技术支持、业务规模支持和业务场景支持;免费版面向科研机构、高校教师、开发者、个人爱好者,免费提供4节点、10TB容量支持,可进行百亿级别的数据处理,应用于学习、教学、科研等场景。自诞生以来,TDH助力数千家企业打造了统一的、高性能大数据平台,为企业建设数据湖、数据仓库、数据中台等提供平台支撑,为企业数字化转型助力。星环科技将持续自主研发与技术创新,强化大数据平台统一多模型处理能力、高性能、易用性、可靠性、和安全性,为核心基础软件国产化,为企业构建数字底座,为大数据社区与人才培养提供领先的技术力量,发挥大数据技术更大的价值。