常見的幾種大數據架構

2019 年 12 月 22 日
筆記

目前圍繞Hadoop體系的大數據架構大概有以下幾種

傳統大數據架構

之所以叫傳統大數據架構，是因為其定位是為了解決傳統BI的問題。

優點：

簡單，易懂，對於BI系統來說，基本思想沒有發生變化，變化的僅僅是技術選型，用大數據架構替換掉BI的組件。

缺點：

對於大數據來說，沒有BI下完備的Cube架構，對業務支撐的靈活度不夠，所以對於存在大量報表，或者複雜的鑽取的場景，需要太多的手工定製化，同時該架構依舊以批處理為主，缺乏實時的支撐。

適用場景：

數據分析需求依舊以BI場景為主，但是因為數據量、性能等問題無法滿足日常使用。

流式架構

在傳統大數據架構的基礎上，直接拔掉了批處理，數據全程以流的形式處理，所以在數據接入端沒有了ETL，轉而替換為數據通道。

優點：

沒有臃腫的ETL過程，數據的實效性非常高。

缺點：

流式架構不存在批處理，對於數據的重播和歷史統計無法很好的支撐。對於離線分析僅僅支撐窗口之內的分析。

適用場景：

預警，監控，對數據有有效期要求的情況。

Lambda架構

大多數架構基本都是Lambda架構或者基於其變種的架構。Lambda的數據通道分為兩條分支：實時流和離線。

優點：

既有實時又有離線，對於數據分析場景涵蓋的非常到位。

缺點：

離線層和實時流雖然面臨的場景不相同，但是其內部處理的邏輯卻是相同，因此有大量榮譽和重複的模塊存在。

適用場景：

同時存在實時和離線需求的情況。

Kappa架構

在Lambda 的基礎上進行了優化，將實時和流部分進行了合併，將數據通道以消息隊列進行替代。

優點：

解決了Lambda架構裏面的冗餘部分，以數據可重播的思想進行了設計，整個架構非常簡潔。

缺點：

雖然Kappa架構看起來簡潔，但是施難度相對較高，尤其是對於數據重播部分。

適用場景：

和Lambda類似，改架構是針對Lambda的優化。

Unifield架構

以上的種種架構都圍繞海量數據處理為主，Unifield架構則將機器學習和數據處理揉為一體，在流處理層新增了機器學習層。

優點：

提供了一套數據分析和機器學習結合的架構方案，解決了機器學習如何與數據平台進行結合的問題。

缺點：

實施複雜度更高，對於機器學習架構來說，從軟件包到硬件部署都和數據分析平台有着非常大的差別，因此在實施過程中的難度係數更高。

適用場景：

有着大量數據需要分析，同時對機器學習方便又有着非常大的需求或者有規劃。

常見的幾種大數據架構

VirMach 便宜 VPS

QNews

常見的幾種大數據架構

分享此文：

Related Posts

分類算法實例五：用KD Tree查找最近鄰

CODING 簽約假面科技,助力打造互動娛樂場景的創新實驗室

8TB固態賣19084元 你覺得貴蘋果不覺得

Ubuntu16.04部署LNMP環境

VirMach 便宜 VPS

QNews

熱門搜尋

8TB固態賣19084元你覺得貴蘋果不覺得