spark关键版本简要梳理 - ⎝⎛CodingNote.cc ⎞⎠

spark关键版本简要梳理

2019 年 10 月 6 日
筆記

好久没有看spark了，发现spark都开始发力AI了。简单梳理下spark的发展脉络如下：

1）spark 0.x 主要对标MapReduce，用内存计算的能力替换MapReduce依赖磁盘，最主要的概念就是RDD。

2）spark 1.x 最主要解决是易用性问题，用SparkSQL统一了编程语言。替代了Hive SQL等，另外提供了一系列高级接口，极大的降低了编程难易度。并推出Tungsten项目，通过编译优化的方法提高性能。

3）spark 2.0 主要对标flink，统一了批处理和流处理接口，批处理和流处理融合处理，推出结构化流处理接口struct streaming。

4）spark 2.4 开始提供图像分类的能力，见博客：https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事还在继续，可以看到spark社区一直在技术的前沿阵地，从不是探路者，但是总是能抓住关键问题，以一种更优雅的方式去替换和取代。

Previous post

创建型模式————工厂模式（2.2）

Next post

Hystrix Dashboard：断路器执行监控