大数据之路_离线数据开发

2022 年 1 月 24 日
筆記
大数据测试

数据研发：了解需求→模型设计→ETL 开发→测试→发布上线→日常运维→任务下线。

数据开发平台

MaxCompute 由四部分组成，分别是客户端（ MaxCompute Client ）、接人层（ MaxCompute Front End ）、逻辑层（ MaxCompt Server ）及存储与计算层（ Apsara Core ）。

从任务开发、调试、测试、发布、监控、到运维管理，形成了整套工具和产品，既提高了开发效率，又保证了数据质量，并且在确保数据产出时效的同时，能对数据进行有效管理。

DQC (Data Quality Center ，数据质量中心）主要关注数据质量，通过配置数据质量校验规则，自动在数据处理任务过程中进行数据质量方面的监控。

DQC 主要有数据监控和数据清洗两大功能。数据监控，顾名思义，能监控数据质量并报警，其本身不对数据产出进行处理，需要报警接收人判断并决定如何处理；而数据清洗则是将不符合既定规则的数据清洗掉，以保证最终数据产出不含“脏数据”，数据清洗不会触发报警。常见的 DQC 监控规则有：主键监控、表数据量及波动监控、重要字段的非空监控、重要枚举宇段的离散值监控、指标值波动监控、业务规则监控等。

阿里数据仓库的数据清洗采用非侵人式的清洗策略，在数据同步过程中不进行数据清洗，避免影响数据同步的效率，其过程在数据进入ODS 层之后执行。对于需要清洗的表，首先在 DQC 置清洗规则；对于离线任务，每隔固定的时间间隔，数据人仓之后，启动清洗任务，调DQC 配置的清洗规则，将符合清洗规则的数据清洗掉，并保存至DIRTY 表归档。如果清洗掉的数据量大于预设的阐值，则阻断任务的执行否则不会阻断。

数据测试的典型测试方法是功能测试：

(1 ）新增业务需求

新增产品经理、运营、 BI 等的报表、应用或产品需求需要开发新的 TL 务，此时应对上线前的 ETL 任务进行测试，确保目标数据符合业务预期，避免业务方根据错误数据做出决策。其主要对目标数据和源数据进行对比，包括数据量、主键、字段空值、字段枚举值、复杂逻辑（如 UDF 、多路分支）等的测试。

(2 ）数据迁移、重构和修改

由于数据仓库系统迁移、源系统业务变化、业务需求变更或重构等，需要对现有的代码逻辑进行修改，为保证数据质量需要对修改前后的数据进行对比，包括数据量差异、宇段值差异对比等，保证逻辑变更正确。为了严格保证数据质量，对于优先级（优先级的定义见“数据质量”章节）大于某个阔值的任务，强制要求必须使用在彼岸进行回归测试，在彼岸回归测试通过之后，才允许进入发布流程。

数据对比：支持不同集群、异构数据库的表做数据对比。表级对比规则主要包括数据量和全文对比；字段级对比规则主要包括字段的统计值（如 SUM VG MAX MIN 等）、枚举值、空值、去重数、长度值等。

数据分布：提取表和字段的一些特征值，并将这些特征值与预期值进行比对。表级数据特征提取主要包括数据量、主键等；字段级数据特征提取主要包括字段枚举值分布、空值分布、统计值（如SUM AVG MAX MIN 等）、去重数、长度值等。

数据脱敏：将敏感数据模糊化。在数据安全的大前提下，实现线上数据脱敏，在保证数据安全的同时又保持数据形态的分布，以便业务联调、数据调研和数据交换。

任务调度系统

（1)调度引擎工作

Async Dispatcher ：异步处理任务调度。

Sync Dispatcher ：同步处理任务调度。

Task 事件处理器：任务事件处理器，与任务状态机交互。

DAG 事件处理器：工作流事件处理器，与工作流状态机交互。DAG 事件处理器包含若干个 Task 件处理器

(2)执行引擎工作

调度配置
定时调度
周期调度
手动运行
补数据
基线管理
监控报警

Tags: 大数据测试

大数据之路_离线数据开发

VirMach 便宜 VPS

QNews

大数据之路_离线数据开发

分享此文：

Related Posts

STL_deque容器

微服务面试必问的Dubbo，这么详细还怕自己找不到工作？

IEEE754浮点数表示法

不愧是小米外观最牛手机！卢伟冰力荐：除了Note 11就它了

VirMach 便宜 VPS

QNews

熱門搜尋