Hive
一、引言
Hive:由Facebook開源用於解決海量結構化日誌的數據統計工具。
Hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張表,並提供類SQL查詢功能。
1.1.1 優點
1) 操作接口採用類SQL語法,提供快速開發的能力(簡單、容易上手)。
2) 避免了去寫MapReduce,減少開發人員的學習成本。
3) Hive的執行延遲比較高,因此Hive常用於數據分析,對實時性要求不高的場合。
4) Hive優勢在於處理大數據,對於處理小數據沒有優勢,因為Hive的執行延遲比較高。
5) Hive支持用戶自定義函數,用戶可以根據自己的需求來實現自己的函數。
1.1.2 缺點
1.Hive的HQL表達能力有限
(1)迭代式算法無法表達
(2)數據挖掘方面不擅長,由於MapReduce數據處理流程的限制,效率更高的算法卻無法實現。
2.Hive的效率比較低
(1)Hive自動生成的MapReduce作業,通常情況下不夠智能化
(2)Hive調優比較困難,粒度較粗