前瞻|Amundsen的數據血緣功能
目前,Amundsen並不支持表級別和列級別的數據血緣功能,也沒有辦法展示數據的來龍去脈。
作為Amundsen一項非常核心的功能,Lineage功能早已經提上日程,並進入設計與研發階段。本位將展示此功能的一些基本設計。
概述
初步設計是通過表詳情頁,進入到相關頁面,來展示表的來源與輸出。
作為這項新的功能,就涉及到了幾個新的概念。
新的概念
Lineage:這是一個術語,代表了數據流的傳遞過程,從一個實體到另一個實體。特別是ETL的過程,重點關注表到表,列到列的數據流轉過程。
Upstream:數據從上游流向下游,Upstream就代表着當前的數據來源。
Downstream:代表了使用了當前數據的相關實體。
表級別
頁面分為Upstream以及
Downstream兩個選項卡。
每個選項卡將包含從中繼承或使用數據的表的列表。這允許用戶以非常簡單的方式查看。
列級別
和表級別相似,可通過擴展列的元數據來查看。
當然這還只是初步的設計,未來可能會有更多的變化,我們會持續關注~
附一張Apache Atlas此功能的實現圖