Apache Kylin 入門介紹與學習資源

  • 2019 年 10 月 31 日
  • 筆記

近日 Kylin v2.6.4 版本發佈,包含很多問題修復與各種改進。翻閱三年前寫的Kylin測試文檔,當時版本還是1.5.3。近兩年 Kylin 版本迅速迭代,社區不斷發展,已經成為 Hadoop 生態中不可或缺的 OLAP 引擎。

01

Kylin 介紹

Apache Kylin(麒麟)是由eBay開源的分佈式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據。Kylin 能夠實現海量數據的秒級甚至亞秒級查詢,主要依賴其預計算與構建Cube的能力。

Kylin底層數據存儲在HBase中,數據輸入與cube building主要是Hive、Kafka,或者JDBC數據源(v2.3.0+版本),如下圖所示:

02

Kylin功能和特性

  • 超快的大數據OLAP引擎,能夠降低百億數據規模下的查詢延時。
  • SQL查詢能力。支持ANSI SQL查詢接口,提供了大部分SQL查詢功能。
  • 交互式查詢能力。查詢延時控制在亞秒級,為Hadoop提供交互式查詢能力。
  • 多維立方體。使用kylin為百億以上數據集定義數據模型並構建立方體。
  • 實時OLAP能力,Kylin可以在數據產生時進行實時處理,用戶可以在秒級延遲下進行實時數據的多維分析。
  • BI工具無縫集成,目前能夠與 Tableau、PowerBI等工具集成。

03

相關資源

官方文檔

學習 Kylin 建議重點參考官方文檔。包含安裝部署、Cube構建教程、工具集成等。

http://kylin.apache.org/docs/

另外,Kylin 還提供了中文版官網,如果你閱讀英文文檔有困難,可以訪問:

http://kylin.apache.org/cn/docs/

源碼地址

https://github.com/apache/kylin

開發、用戶郵件

[email protected][email protected]

訂閱方式:發送郵件到 [email protected][email protected] 進行訂閱。