小数据的大价值,在DT时代不容忽视的话题
- 2019 年 10 月 10 日
- 筆記
随着大数据的日益普及,笔者一直在思考一个问题:什么是小数据?当人们在谈论小数据的时候,认为在大数据的话语体系里,应该有小数据的说法。但至于如何认识小数据,如何界定小数据,如何理清小数据跟大数据的关系,以及这个小数据会对目前的大数据产业发展以及管理制度建设方面带来哪些影响,一直一来没有相关专业的文章著作或研究成果。
笔者对这个问题研究了很长的时间,也收集了当前国内外对于小数据的相关介绍,本文基于笔者的个人思考,从小数据的背景、属性、与其他数据的关系等几个方面详细阐述“小数据的大价值”这一主题,便于读者更加清晰、全面的认识小数据。
一背景介绍
大数据这个词已经提了很多年了,特别是在2013年美国奥巴马总统颁布大数据研发计划以后,对全世界的大数据产业发展起了巨大的推动作用。我国在2015年9月发布了《促进大数据发展行动纲要》(以下简称《行动纲要》),在全社会引起广泛影响。《行动纲要》是到目前为止我国促进大数据发展的第一份权威性、系统性文件,从国家大数据发展战略全局的高度,提出了我国大数据发展的顶层设计,是指导我国未来大数据发展的纲领性文件。为了贯彻《行动纲要》的执行,国家出台了很多相关的政策措施,地方也成立了相应的大数据管理机构。
近几年来,国家围绕促进大数据发展制定了一系列重大政策文件,从这些文件内容来看,大数据已经提到了国家发展的战略层面。然而,我们在这些文件里没有找到小数据的相关内容,尽管一些文章、报道或专家的说法里会经常提到小数据,但是始终没有一个科学、准确的界定,所以笔者觉得讨论小数据其实是非常有意义的。特别是小数据跟我们原来的信息资源管理或者信息资源开发利用等这些概念和政策到底存在什么样的关系,因为大数据好像是一个突然冒出来的概念,而且大家觉得大数据好像是万能的,可以解决一切数据处理的问题,但小数据到底能起到什么作用呢?这应该才是我们讨论这个问题的关键出发点。
二小数据的属性
目前对于小数据的认识主要有三种典型观点:第一种,小数据泛指零星的弱信号,往往被当作没有规范、看似随机的偏差或噪音。第二种,小数据是指结构化的采样数据,从采样来看一般是抽取1-2%或者5%的小样数据进行整理和评判。最后一种,小数据是指信息项目和数据规模较小的数据库。
然而这些观点对于全面认识大数据来说,仍然不足以作为一个理论化的概念或者体系去构建。笔者认为讨论小数据必须明确三个前提:一是人们采集、加工海量数据的时候,通常都是某种具有特定目的的理性行为。二是要体现某种价值,“数据”本身必须能够表述一个完整的“信息”。三是完整的信息应该包含明确的主体、客体和行为。
把数据、信息、知识和智慧分为四个层次,每个层次都有递进关系,数据作为原始素材,是最基础的部分,而智慧则是合理地应用知识并进行正确判断、决策的能力。
基于上述认识,可以对小数据的属性做一个基本的界定:小数据应该与数据容量无关,小数据自身应该包含特定意义,小数据应该是一种结构化的数据,小数据应该是对于大数据的数据之间关系的宏观描述,还有,小数据与大数据是紧密联系在一起的,如影随形,是整个大数据的一部分。
从这个角度出发,笔者对小数据做一个定义,所谓小数据就是指描述并管理大数据的数据属性的数据。在这个定义的基础上,可以将小数据分为三大类:第一类,是关于特定类型的大数据的数据属性的数据;第二类,是描述大数据中所包含主体客体的基本特征的管理数据;第三类,是描述大数据中的行为过程的数据。其中,第二类又可细分为两种,一种是对于大数据中所包含的主体、客体的一般属性的规定,另一种是满足某类主(客)体属性的所有对象的数据。
三小数据与元数据、主数据的关系
上述内容中,把小数据划分为三大类,其中有一类分为两小类,其实这些类型还可以再进行细分,可以分为元数据和主数据两种类型。第一类和第三类以及第二类的第一小类应该是一种元数据范畴,第二类的第二小类实际上是一种主数据范畴。从这个角度讲,在认识小数据的时候,其实可以应用一些现有的对于数据管理比较成熟的技术、方法去界定,便于全面的认识和了解小数据。
为了进一步细分小数据的具体内涵,先看看元数据。元数据是认识很久的一个概念,最初是从图书馆管理学过来的,现在随着计算机系统的发展,主要应用在系统的日志管理以及各方面的应用,现在元数据得到了各行各业普遍的应用。笔者根据DAMA (2009年版)相关内容,对此进行概括,将元数据的领域分为16个方面,从这16个方面来看,每一个行业都可以用元数据的思路去做相应的界定。
表1 元数据可能包含的潜在主题领域
序号 |
主题领域 |
内容描述 |
---|---|---|
1 |
业务分析 |
数据定义、报表、用户、使用方法和绩效 |
2 |
业务架构 |
角色和组织、目的和目标 |
3 |
业务定义 |
有关组织中的一个特定的概念、事实或其他事物的业务术语和解释 |
4 |
业务规则 |
标准计算公司和衍生方法 |
5 |
数据治理 |
政策、标准、程序、项目、角色、组织和管理职责安排 |
6 |
数据整合 |
数据源、数据目标、数据转换规则、数据血缘关系、ETL工作流、EAI、EII、迁移和变换 |
7 |
数据质量 |
缺陷、度量和评级 |
8 |
文档内容管理 |
非结构化数据、文档、术语分类、本体、命名集合、法律发现、搜索引擎索引 |
9 |
信息技术架构 |
平台、网络、配置和许可证 |
10 |
逻辑数据模型 |
实体、属性、关系和规则、业务名称和定义 |
11 |
物理数据模型 |
文件、表、列、视图、业务定义、索引使用、性能、变更管理 |
12 |
流程模型 |
职能、活动、角色、输入、输出、工作流、业务规则、定时、存储 |
13 |
系统群和IT治理 |
数据库、应用程序、项目和计划、整合路线图、变更管理 |
14 |
面向服务架构(SOA)信息 |
组件、服务、消息、主数据 |
15 |
系统设计和开发 |
需求、设计、测试计划、影响 |
16 |
系统管理 |
数据安全、许可证、配置、可靠性、服务水平 |
同时,元数据类型可分为业务元数据、技术操作元数据、流程元数据及数据管理制度元数据,从属性来看,元数据包括各行各业、各个领域、各个方面,每一个信息系统里面都存在着元数据的建设问题。
表2 元数据类型、属性与内容
元数据类型 |
属性与内容 |
---|---|
业务元数据 |
主题和概念领域、实体及属性的业务名称和业务定义,属性的数据类型和其他特性,范围描述,计算公式,算法和业务规则,以及有效值域及其定义 |
技术与操作元数据 |
技术元数据包括物理数据库表名和字段名、字段属性、其他数据库对象的属性和数据存储特性;操作元数据主要用于满足IT运维用户的需求,包括数据迁移信息、数据源和目标系统信息、批处理程序、任务频率、调度异常处理、备份与恢复信息、归档规则和使用等信息 |
流程元数据 |
定义和描述系统的其他元素(如流程、业务规则、程序、任务、工具等)的特性的数据 |
数据管理制度元数据 |
关于数据管理专员、监管制度流程和责任分配的数据 |
主数据的概念由来已久,应用实例也比较多,比如在税务行业方面,税务局在按纳税人来做分析统计时会发现,关于纳税人的基本信息往往分布在核心征收管理系统、发票管理系统、个人所得税系统、增值税管理系统等几十个系统中,使得统计分析非常困难。比如在产品管理方面,由于不是根据供应商所要求的有关产品层次的分类去建立自身的内部产品管理体系,医疗设备公司对各个产品的描述往往很不一样,因而在建立和维护产品目录方面就非常困难。
随着业务的发展,无论是对企业还是对政府管理部门来说,生成并维护一个统一的主数据管理系统已经变得十分迫切和必要。例如,对跨国公司而言,如何在不同的地区(各个国家和地区)的业务系统之间维护关于客户、产品目录、供应商等信息的单一视图是非常重要的;同样,对于有关个人身份信息的行政管理事务而言,建立全国统一的居民身份基础信息共享系统在当前具有非常现实的价值。目前驾驶证号已经采用居民身份证号,为管理交通事故肇事逃逸案件发挥了良好的作用。
笔者在2009年开展国家标准化工作时,认识到基础信息资源主数据是我们认识的一个基本工具,并对主数据做了相关研究,笔者把主数据定义为满足跨部门业务协同需要的、反映核心业务实体状态属性的企业(组织机构)基础信息。主数据相对于政府部门或企业等有不同的认识,不同的行业有不同的认识要求,比如说对于法人的基础信息,这是依法认定,是它的重要特色,而对于其他的资产管理来说就不一定说是依法认定的,只要在业务属性上有必要把它当成基础数据来看,特别是满足主数据的特点就可以把它当成主数据来管理。
主数据与其他数据的关系,笔者做了一个划分,业务数据包括主数据和交易数据。所谓业务数据,是指业务实体完成一项具体行为过程的完整的数据,我们去办业务的时候,留下的数据信息记录都算是业务数据。所谓的交易数据,是业务实体基于业务行为规则而发生的具体行为过程数据。交易数据是每次去做什么事情的时候,一种特定的、法定的、依据产生的过程的一种记录。
元数据和主数据之间有着密切的关系。从概念和逻辑上讲,主数据(结构)属于元数据的一个子集,是一种特定类型的元数据。但是,从产品上讲,主数据和元数据是两个完全不同的概念:元数据是指表示数据的经过抽象的相关信息,比如数据定义等;而主数据是指实例数据,比如产品目录信息等。由于主数据对于业务系统建设具有独特地位,所以往往将其独立出来并单独建设、维护,例如客户关系管理系统(CRM)等。另外,无论是主数据还是元数据,都不是系统自行产生的数据,而是在规划建设信息系统时、从加强业务系统管理角度出发所构建的数据(库)。
四小数据对于大数据产业发展的重要意义
在大数据中,小数据是一个非常重要的内容,要正确地认识大数据就必须把小数据认识清楚,只有认识清楚了小数据,对于大数据才能有一个科学的、合理的、正确的认识,所以小数据对于认识大数据应该是一个基础性的工作。对于我国来说,为了促进大数据产业发展,应当充分借鉴和应用小数据的基本理论框架,深化对于大数据产业的管理或应用。如何充分发挥小数据对于大数据产业发展的重要作用,笔者认为可以从以下三个方面深入开展相关工作。
首先,应该深化对于小数据的认识,将小数据作为数据科学的重要内容,从数据属性、知识管理、数据架构等方面对小数据进行专题研究,特别是要把小数据的建设纳入到大数据产业发展的话语体系。
第二,加强宣传,克服当前一些对于大数据不合理的观念,消除认识误区。现在大数据发展以后很多基层民众对它的认识很不清楚,甚至对于部分专业人士来说,也存在着很多困惑。近年来,大数据产业的爆发式增长掩盖了人们对于传统数据库技术特别是结构化数据管理的关注,好像大数据跟我们平常的工作没有关系,只要用了大数据的系统,这个数据的管理、决策就全包了,给人造成一种假象,认为大数据技术本身就可以解决数据处理的一切问题。笔者认为原来做的那些基础数据管理的工作仍然是非常必要的,而且是一个非常基础性的工作,后续采用新的大数据分析工具的时候,仍然是必不可少的内容。实际上在一些大数据的架构框架中,通过数据清洗等工作有助于解决数据的分化、分离的问题,更多的是把元数据和主数据给剔除出来,如果事先将小数据认识清楚的话,进一步提升对于大数据价值的利用分析过程。所以小数据还是具有很深的政策含义,对于当前大数据产业发展仍然是一个非常重要认识的理念,为消除人们的认识假象,今后应该在有关大数据产业发展的政策文件、论坛活动等方面,突出小数据发展议题,在大数据产业发展政策、规划和重要的信息系统建设中设立小数据发展专项等。
第三,应该基于小数据建立和完善我国的数据管理体系,促进我国大数据产业健康发展。近年来我国各级政府发布了大量促进大数据产业发展的政策文件。但是,这些政策文件着力解决的是如何促进大数据产业发展,而对如何构建数据管理体系着墨不多。由于没有建立完善的数据管理体系,我国大数据产业普遍存在着数据质量不高、价值无法得到高效发挥等诸多问题。随着我国大数据产业的深入发展,这些问题势必不断加剧并严重阻碍我国大数据产业的健康发展。因此,建立和完善国家数据管理体系迫在眉睫。根据《DAMA数据管理知识体系指南》,数据管理体系主要包括数据治理、数据架构管理、数据开发、数据操作管理、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理、数据质量管理等十个数据管理职能,其中元数据和主数据都各自成为一个独立的组成部分,可见小数据对于数据管理体系建设的极端重要性。
笔者认为,从中国的大数据展现的管理来讲,可以借鉴DAMA的内容,但是DAMA的内容只能作为参考,目前中国大数据产业的发展仍然有许多的问题需要处理,比如基础数据建设、数据合规性的管理、以及一些特定行业跟行政管理体制的关系等,如何共同认识小数据和大数据,这对于大数据的产业发展都是非常有必要的,而且对于我国数据开发管理体制建设来说都是基础性的工作,小数据一个非常重要的理论上或认识上的概念。建立和完善数据管理体系,是保障我国大数据产业健康发展的基础条件。但是,这也是一项长期艰巨的任务。从工作需要出发,当前应该基于元数据和主数据管理的理论和方法,构建我国相关行业领域的小数据管理体系。
总结
本文内容基于笔者的个人见解,有些观点不太成熟,仁者见仁、智者见智,希望能抛砖引玉,引发各位读者对这个问题的广泛思考,在本文的基础上提出更加专业、更加深入的建议,建立更具有实际指导意义的认识体系或者理论体系,深化大数据产业的快速、健康发展,促进我国大数据走在世界前列。