漫談 | 大牛帶你從0到1構建數據倉庫實戰
- 2019 年 10 月 4 日
- 筆記
點擊上方「Python爬蟲與數據挖掘」,進行關注
回復「書籍」即可獲贈Python從入門到進階共10本電子書
今
日
雞
湯
業精於勤而荒於嬉,行成於思而毀於隨。


本文從數倉架構之流派之爭,數倉建設之三步調研,劃分主題域和匯流排矩陣,數倉架構之美,數據治理和數據品質等全局展開。

數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支援管理決策。




Inmon:數據倉庫之父,中央集權的戰略家!

Kimball:數據倉庫大師,分而治之的戰術家!踐行家!

















秦始皇:在中央實行三公九卿,地方廢分封、立郡縣,同時 書同文,車同軌,統一度量衡。
數倉建設:整體架構分4層12個主題,逆規範化、維度建模,同時 統一模型規範,開發規範,數據類型等。。。
類比一下,就會發現:歷史總是驚奇的相似!





一句話總結數倉建設:通過三步調研(業務調研、需求調研、數據調研),劃分主題域,確定主題。然後構建匯流排矩陣,維度建模(星型模型、四步建模)。設計數倉分層架構(ods-dwd-dws-ads),訂製規範(命名規範、模型規範、開發規範、流程規範)。數據治理(數據品質,數據安全,元數據管理)。開工ETL/BI,迭代開發。
* * 開發團隊必須嚴格的按照這個體系結構來進行數據集市的迭代開發。


