spark關鍵版本簡要梳理

  • 2019 年 10 月 6 日
  • 筆記

好久沒有看spark了,發現spark都開始發力AI了。簡單梳理下spark的發展脈絡如下:

1)spark 0.x 主要對標MapReduce,用內存計算的能力替換MapReduce依賴磁盤,最主要的概念就是RDD。

2)spark 1.x 最主要解決是易用性問題,用SparkSQL統一了編程語言。替代了Hive SQL等,另外提供了一系列高級接口,極大的降低了編程難易度。並推出Tungsten項目,通過編譯優化的方法提高性能。

3)spark 2.0 主要對標flink,統一了批處理和流處理接口,批處理和流處理融合處理,推出結構化流處理接口struct streaming。

4)spark 2.4 開始提供圖像分類的能力,見博客:https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事還在繼續,可以看到spark社區一直在技術的前沿陣地,從不是探路者,但是總是能抓住關鍵問題,以一種更優雅的方式去替換和取代。