python与Spark结合，PySpark的机器学习环境搭建和模型开发

2019 年 10 月 28 日
笔记

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark拥有Hadoop MapReduce所具有的优点；但不同MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark提供了一个更快、更通用的数据处理平台。和Hadoop相比，Spark可以让你的程序在内存中运行时速度提升100倍，或者在磁盘上运行时速度提升10倍。去年，在100 TB Daytona GraySort比赛中，Spark战胜了Hadoop，它只使用了十分之一的机器，但运行速度提升了3倍。Spark也已经成为针对 PB 级别数据排序的最快的开源引擎。

Spark支持Scala、Java、Python、R等接口，本文均使用Python环境进行学习。

Spark在Windows下的环境搭建

https://blog.csdn.net/u011513853/article/details/52865076

https://www.jianshu.com/p/ede10338a932

pyspark官方文档http://spark.apache.org/docs/2.1.2/api/python/index.html

基于PySpark的模型开发

会员流失预测模型

通用模型开发流程

需求沟通与问题确立

定义流失口径：比如，流失客户定义为最近一次购买日期距今的时间大于平均购买间期加3倍的标准差；非流失客户定义为波动比较小，购买频次比较稳定的客户选定时间窗口：比如，选择每个会员最近一次购买时间回溯一年的历史订单情况推测可能的影响因素：头脑风暴，特征初筛，从业务角度出发，尽可能多的筛选出可能的影响因素作为原始特征集

数据整合与特征工程 1）把来自不同表的数据整合到一张宽表中，一般是通过SQL处理 2）数据预处理和特征工程