spark关键版本简要梳理

  • 2019 年 10 月 6 日
  • 筆記

好久没有看spark了,发现spark都开始发力AI了。简单梳理下spark的发展脉络如下:

1)spark 0.x 主要对标MapReduce,用内存计算的能力替换MapReduce依赖磁盘,最主要的概念就是RDD。

2)spark 1.x 最主要解决是易用性问题,用SparkSQL统一了编程语言。替代了Hive SQL等,另外提供了一系列高级接口,极大的降低了编程难易度。并推出Tungsten项目,通过编译优化的方法提高性能。

3)spark 2.0 主要对标flink,统一了批处理和流处理接口,批处理和流处理融合处理,推出结构化流处理接口struct streaming。

4)spark 2.4 开始提供图像分类的能力,见博客:https://blogs.technet.microsoft.com/machinelearning/2018/03/05/image-data-support-in-apache-spark/

故事还在继续,可以看到spark社区一直在技术的前沿阵地,从不是探路者,但是总是能抓住关键问题,以一种更优雅的方式去替换和取代。