spark關鍵版本簡要梳理 - ⎝⎛CodingNote.cc ⎞⎠

spark關鍵版本簡要梳理

2019 年 10 月 6 日
筆記

好久沒有看spark了，發現spark都開始發力AI了。簡單梳理下spark的發展脈絡如下：

1）spark 0.x 主要對標MapReduce，用內存計算的能力替換MapReduce依賴磁盤，最主要的概念就是RDD。

2）spark 1.x 最主要解決是易用性問題，用SparkSQL統一了編程語言。替代了Hive SQL等，另外提供了一系列高級接口，極大的降低了編程難易度。並推出Tungsten項目，通過編譯優化的方法提高性能。

3）spark 2.0 主要對標flink，統一了批處理和流處理接口，批處理和流處理融合處理，推出結構化流處理接口struct streaming。

4）spark 2.4 開始提供圖像分類的能力，見博客：https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事還在繼續，可以看到spark社區一直在技術的前沿陣地，從不是探路者，但是總是能抓住關鍵問題，以一種更優雅的方式去替換和取代。

Previous post

創建型模式————工廠模式（2.2）

Next post

Hystrix Dashboard：斷路器執行監控