讓你秒懂hadoop各組件

經常在提到大數據處理框架hadoop，但大家對各組件的用途還是很迷糊，在給客戶講方案時覺得hadoop很高深。其實沒有這麼難，今天我們來簡述一下用途。通過本短文的查閱，至少你知道組件的作用、他所處的層次。

1、Hadoop是Apache公司的大數據處理套件，是所有大數據組件的總稱。目前Hadoop已從1.0發展至2.0時代。

2、HDFS把所有廉價的pc伺服器組成了一個超級大硬碟，且通過多副本保證了數據安全。

3、MapReduce用於把一個超級大的數據文件分解至不同的廉價pc伺服器進行處理，並最終返回數據處理結果。

4、Yarn用於優化mapreduce的處理框架，是一個資源調度組件，讓mapreduce處理更加穩健、高效。

5、Zookeeper是一個協調組件，很多組件都依賴於它的運行。如選擇HA領導、實現Mysql的高可用。它相當於是一個領導角色，負責協調資源的高可用運行。

6、Sqoop是一個ETL工具，負責各類資料庫（Mysql等）與hadoop存儲之間的互相倒換。

7、Hive是一個mapreduce之上的神器，你通過sql命令就可以代替mapreduce的編程。

8、Spark是MapReduce的升級替換組件，基於記憶體計算，數據處理速度提高10-100倍。

9、Kafka是一個隊列工具，數據、消息的排隊全靠它，有了它的幫助，數據的堵塞問題不再是個事。

10、Flume是一個前端日誌採用工具，部署在web等前端伺服器，將日誌數據源源不斷進行採集。

11、HBase是數據的海量存儲倉庫，是一個Nosql資料庫，可以保障數據的海量存儲。

12、Pig是另一個簡化版的Mapreduce上層處理工具，通過簡單的腳本即可生成Mapreduce程式進行快速的數據處理。