数据中台(介绍篇)

公司在弄数据中台,所以结合实际去理解了下数据中台,本文归属一寸HUI所有。@一寸HUI

数据中台是什么?

数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制。数据中台是处于业务前台和技术后台的中间层,是对业务提供的数据能力的抽象和共享的过程,数据中台通过将企业的数据变成数据资产,并提供数据能力组件和运行机制,形成聚合数据接入、集成、清洗加工、建模处理、挖掘分析,并以共享服务的方式将数据提供给业务端使用,从而与业务产生联动,而后结合业务系统的数据生产能力,最终构建数据生产>消费>再生的闭环,通过这样持续使用数据、产生智能、反哺业务从而实现数据变现的系统和机制。

数据来自于业务,并反哺业务,不断循环迭代,实现数据可见、可用、可运营。通过数据中台把数据变为一种服务能力,既能提升管理、决策水平,又能直接支撑企业业务。数据中台不仅仅是技术,也不仅仅是产品,而是一套完整的让数据用起来的机制。既然是“机制”,就需要从企业战略、组织、人才等方面来全方位地规划和配合,而不能仅仅停留在工具和产品层面。

数据中台通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。这些服务跟企业的业务有较强关联性,是这个企业独有且能复用的。

数据中台VS数仓和大数据平台

1.数据中台VS数据仓库

数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台持续不断地将数据进行资产化、价值化并应用到业务,而且关注数据价值的运营。

数据中台建设包含数据体系建设,也就是数据中台包含数据仓库的完整内容,数据中台将企业数据仓库建设的投入价值进行最大化,以加快数据赋能业务的速度,为业务提供速度更快、更多样的数据服务。数据中台也可以将已建好的数据仓库当成数据源,对接已有数据建设成果,避免重复建设。当然也可以基于数据中台提供的能力,通过汇聚、加工、治理各类数据源,构建全新的离线或实时数据仓库。

2.数据中台vs大数据平台

大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、Elasticsearch等。在大数据组件上搭建的ETL流水线,包括数据分析、机器学习程序。数据治理系统。数据仓库系统。数据可视化系统。

数据中台应该是大数据平台的一个超集。在大数据平台的基础之上,数据中台还应该提供下面的系统功能:

  • 全局的数据应用资产管理
  • 全局的数据治理机制
  • 自助的、多租户的数据应用开发及发布
  • 数据应用运维
  • 数据应用集成
  • 数据即服务,模型即服务
  • 数据能力共享管理
  • 完善的运营指标

数据中台的价值是什么?

1.数据中台是企业数据化建设的基础设施

数据中台解决了企业全域数据汇聚的问题,打通以往的数据孤岛,沉淀数据资产,实现数据之间的价值共通,可基于数据中台满足复杂的数据应用场景。

2.提升数据质量

数据中台基于Onedata方法论构建统一的公共层,保证了源头数据的一致性,且实现数据按照统一口径只加工一次,实现全局指标、标签的统一,大大提高数据质量。

3.建立数据标准

数据中台建设会促使企业还要建设数据标准或规范,比如数据接入规范、数据集成规范、数据存储规范、数据处理规范、数据使用权限规范、数据共享规范、数据销毁规范、数据安全规范等。

这些标准都是数据中台建设阶段也需要建设的体系。有数据标准/规范体系护航,数据中台才能更好的运转;也只有依托数据中台,数据标准才能更好的执行和落地。

4.节约企业数据应用成本

基于数据中台的元数据管理的数据血缘,可以实现数据投入产出比的评估,及时发现并下线低ROI的数据,也避免数据重复加工。由此降低数据的研发、存储和计算成本,降低企业数据应用成本。

下面分别从两个角度去阐述所产生的降本和增效价值:

  • 降本:数据中台通过复用数据能力组建,快速完成数据链路的搭建,减少重复研发的人力和维护成本;
  • 增效:通过快速复用组建完成数据链路搭建,让数据从接入>加工>使用的整个周期缩短,减少业务端的数据获取等待时延,为业务方赢得更多的展业时间和机会。

通过提供赋能于具体业务场景的数据应用,帮助业务端更精准的发现客户、分析客户等,用数据滋养各线业务,使整个业务运营过程体验更友好和高效,并缩短运营周期。

5.健全各部门协作机制

数据中台承担着一定的实现企业战略目标的使命,数据中台的建设过程势必需要对应的组织和制度来支撑中台的建设和运营。数据中台这种体系化工程将横向拉通企业数据的相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据运营团队等,形成企业真正的数据组织。利用系统化的解决方案配合一定的管理机制,实现业务人员、数据研发、产品经理、数据分析师等角色的高效协同,提升各角色之间的协作效率。

数据中台要解决什么问题?

1.指标口径不一致

通常表现在3各方面:业务口径不一致、计算逻辑不一致、数据来源不一致。

业务口径不一致:业务口径不一致的指标,应该要有不同的标识去区分,比如上面提到的销售额这一指标,明明口径是不一致的,但却没有区分,容易让业务误解。

计算逻辑不一致:业务口径的描述往往是一段话,但对于一些计算逻辑比价复杂的指标,一段话通常是描述不清楚的,如果碰巧两个相同业务口径的指标是不同的数据研发实现的,极有可能会出现计算逻辑不一致的情况。

数据来源不一致:对于部分指标,有多个数据源可供选择,如果数据源正好有些细微差异不被发现时,即使加工逻辑一样,也有可能结果不一致。另外,实时数据和离线数据也会有一定差异。

因此,要实现一致性,就要确保对同一个指标,只有一个业务口径,只加工一次,且数据来源必须一致。

2.烟囱式建设数据平台,大量源被浪费,响应速度慢

主要在于烟囱式的开发模式,使得数据复用性低,导致大量重复逻辑代码的研发,影响需求响应速度。

比如,两个指标都需要对同一份原始数据进行清洗,原则上来说,只用一个任务对原始数据做清洗,产出一张明细表,另一个指标开发时,便可直接引用已经清洗好的明细表,这样便可节省一个清洗逻辑的研发工作量。但现实往往是对同一份原始数据做了两次清洗。因此,要解决需求响应速度慢的问题,就要提升数据的复用性,确保相同数据只加工一次,实现数据的共享。

3.取数效率低

主要表现在两个方面,一方面是找不到数据,另一方面是取不到数据。要解决找不到数据的问题,就要构建企业数据资产目录,让数据使用者快速找到并理解数据。取不到数据的主要是非技术人员不会写SQL去提取数据,所以可以为其提供自助取数工具,使其简单快速的获取数据。

4.数据质量低

面对业务已经沉淀的大量数据,逐步形成了企业的数据资产。而这些数据资产如何成为可持续使用的,为企业带来价值的数据,需要数据治理进行提升数据质量,比如设计数据质量校验的规则和使用流程,设计数据管控权限,数据如何安全输出及共享的设计等,如何在整体上发挥出数据的协同效应,为业务提供更高价值的数据服务链路,数据中台可以将这些数据能力整合到一起,对业务端提供稳定的持续的服务能力。

根据上面的问题分析,数据中台就是要解决找数据,理解数据、问题评估、取数及可视化展现这五个问题。整个平台的故事也是围绕这个五个点。从根本上解决:

找数:数据从什么地方来到什么地方去,将数据和业务过程结合起来,实现数据的快速查询

理解数据:通过数据的血缘关系,数据关联关系及数据的说明信息,让数据开发人员,业务人员快速理解数据

问题评估:数据分析人员拿到需求,可以通过该平台实现问题的自动评估,大大提高数据分析效率

取数:用户可以不再关心数据的来源,不再担心数据的一致性,不再依赖RD的排期开发。通过所选即所得的方式,满足了用户对业务核心指标的二次加工、报表和取数诉求

数据可视化:依托于我们的BI可视化系统和数据中台的打通,数据分析人员可以快速的将数据中台创建的数据模型快速的转换成可视化报表。

数据中台要做什么?

数据中台是企业数字化运营的统一数据能力平台,能够按照规范汇聚和治理全局数据,为各个业务部门提供标准的数据能力和数据工具,同时在公司层面管理数据能力的抽象、共享和复用。数据中台与传统数据仓库和大数据平台的最根本差异,就是强调从工具和机制上支持对数据能力的全局抽象、共享和复用。应该说,数据中台是建立在数据仓库和大数据平台之上的,让业务部门可以更好、更有效率地使用数据的运营管理层。

数据中台通过提供工具、流程和方法论,实现数据能力的全局抽象、共享和复用,赋能业务部门,提高实现数据价值的效率。数据中台需要具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现4个核心能力,让企业员工、客户、伙伴能够方便地应用数据。

第一,实现这些目标必须有相应的数据能力,也就是从数据中产生价值的能力。

第二,要实现这些目标,必须完成全局的数据汇聚和治理。

第三,企业必须高效完成从汇总好的数据到价值的转换,需要进行数据能力的抽象,然后实现能力的共享和复用。

第四,在实现数据能力的共享和复用的过程中,需要协调复用和效率的矛盾。

针对数据中台需要构建的目标,数据中台需要实现如下功能和服务:

1.构建服务和系统

1.构建全局一致的指标词典,实现指标体系化管理

按照数仓主题域的方式对所有指标统一命名、分类,明确指标口径、数据来源、计算逻辑,产出企业的指标词典,由专门团队来负责指标口径的管控;

设计上线方便业务人员查询的指标词典管理系统,所有的数据产品、数据报表都引用指标系统的口径,当鼠标Hover到某个指标上时,浮现该指标的指标口径定义。

2.统一数仓建模,构建全局一直的公共层,提升数据复用性

制定统一的数仓建模规范,在模型设计阶段,强制相同聚合粒度的模型,度量不能重复,保证相同粒度的指标、度量只加工一次;建设数据地图,方便数据研发能快速查找并准确理解数据。

3.提供企业数据地图和自助取数系统

数据中台构建了企业数据地图,数据使用者可通过数据地图快速了解企业当前有哪些数据,在哪张表里可以看到,关联了哪些指标和维度;

非技术人员可通过自主取数工具,选取指标,勾选指标的可分析维度,添加筛选条件,点击查询,就可以方便获取数据。

4.配置数据质量稽核规则和数据预警

通过配置数据质量稽核规则和数据预警,对数据一致性、完整性、正确性和及时性进行监控,确保第一时间发现、恢复、通知数据问题。

5.上线数据成本治理系统

数据治理系统可实现表维度、任务维度、应用维度的全面数据治理。比如一个30天内没有被访问的报表,我们认为其产出价值较低,这时我们可以结合这个报表的所有上游表和下游表产出任务,计算这张表的加工成本,有了价值和成本,便可计算出ROI,根据RO评估,实现低价值报表的及时发现和下线。

针对如上的一些功能和服务,数据中台需要整合四个核心的功能:

2.整合数据中台核心功能

1.汇聚整合

数据中台需要对数据进行整合和完善,提供适用、适配、成熟、完善的一站式大数据平台工具,在简便有效的基础上,实现数据采集、交换等任务配置以及监控管理。数据中台必须具备数据集成与运营方面的能力,能够接入、转换、写入或缓存企业内外部多种来源的数据,协助不同部门和团队的数据使用者更好地定位数据、理解数据。

2.提纯加工

数据就像石油,需要经过提纯加工才能使用,这个过程就是数据资产化。企业需要完整的数据资产体系,围绕着能给业务带来价值的数据资产进行建设,推动业务数据向数据资产的转化。

数据中台必须连通全域数据,通过统一的数据标准和质量体系,建设提纯加工后的标准数据资产体系,以满足企业业务对数据的需求。

3.服务可视化

为了尽快让数据用起来,数据中台必须提供便捷、快速的数据服务能力,让相关人员能够迅速开发数据应用,支持数据资产场景化能力的快速输出,以响应客户的动态需求。多数企业还期待数据中台可以提供数据化运营平台,帮助企业快速实现数据资产的可视化分析,提供包括实时流数据分析、预测分析、机器学习等更为高级的服务,为企业数据化运营赋能。数据资产必须服务于业务分析才能解决企业在数据洞察方面的短板,实现与业务的紧密结合。

4.价值变现

数据中台通过打通企业数据,提供以前单个部门或者单个业务单元无法提供的数据服务能力,以实现数据的更大价值变现。企业期待数据中台能提升跨部门的普适性业务价值能力,更好地管理数据应用,将数据洞察变成直接驱动业务行动的核心动能,跨业务场景推进数据实践。

什么企业合适构建数据中台?

数据中台不是万能的,也不是所有的企业都合适构建数据中台,有兴趣可以看看这篇文章迷信中台是一种病,得治

企业在选择是否构建数据中台的时,可以从以下几个方面思考:

首先,看企业是否有一定的信息基础,是否实现了业务数据化的过程,有了一定的数据沉淀,数据中台,顾名思义,数据是基础,毕竟巧妇难为无米之炊;

其次,企业是否存在业务数据孤岛,是否有需要整合各个业务系统的数据,进行关联分析的需求,如果有,需要通过构建数据中台,打通数据孤岛,整合各业务系统数据,满足关联分析的需求。

最后,在日常的数据使用过程中是否遇到指标口径不一致、需求响应速度慢、数据质量差、数据成本高等痛点。

如果满足前两个条件,且在数据应用中存在以上所述的一些痛点,那建议你可以考虑将数据中台项目提上日程了。

参考:

数据中台建设系列篇:什么样的企业适合建设数据中台
数据中台建设系列篇:什么是数据中台?
数据中台建设(规划篇)
基于Apache doris怎么构建数据中台(一)-什么是数据中台
《云原生数据中台:架构、方法论与实践》
《数据中台:让数据用起来》