前瞻|Amundsen的數據血緣功能

目前,Amundsen並不支持表級別和列級別的數據血緣功能,也沒有辦法展示數據的來龍去脈。

作為Amundsen一項非常核心的功能,Lineage功能早已經提上日程,並進入設計與研發階段。本位將展示此功能的一些基本設計。

概述

初步設計是通過表詳情頁,進入到相關頁面,來展示表的來源與輸出。

作為這項新的功能,就涉及到了幾個新的概念。

新的概念

Lineage:這是一個術語,代表了數據流的傳遞過程,從一個實體到另一個實體。特別是ETL的過程,重點關注表到表,列到列的數據流轉過程。

Upstream:數據從上游流向下游,Upstream就代表着當前的數據來源。

Downstream:代表了使用了當前數據的相關實體。

表級別

頁面分為Upstream以及Downstream兩個選項卡。

每個選項卡將包含從中繼承或使用數據的表的列表。這允許用戶以非常簡單的方式查看。

列級別

和表級別相似,可通過擴展列的元數據來查看。

當然這還只是初步的設計,未來可能會有更多的變化,我們會持續關注~

附一張Apache Atlas此功能的實現圖

Tags: