Hive

一、引言

Hive:由Facebook開源用於解決海量結構化日誌的數據統計工具。

Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張表,並提供類SQL查詢功能。

 

 

 

1.1.1     優點

1)         操作接口採用類SQL語法,提供快速開發的能力(簡單、容易上手)。

2)         避免了去寫MapReduce,減少開發人員的學習成本。

3)         Hive的執行延遲比較高,因此Hive常用於數據分析,對實時性要求不高的場合。

4)         Hive優勢在於處理大數據,對於處理小數據沒有優勢,因為Hive的執行延遲比較高。

5)         Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。

1.1.2     缺點

1.Hive的HQL表達能力有限

(1)迭代式算法無法表達

(2)數據挖掘方面不擅長,由於MapReduce數據處理流程的限制,效率更高的算法卻無法實現。

2.Hive的效率比較低

(1)Hive自動生成的MapReduce作業,通常情況下不夠智能化

(2)Hive調優比較困難,粒度較粗

 

 

 

 

 

 

Tags: