分布式机器学习:同步并行SGD算法的实现与复杂度分析(PySpark)
- 2022 年 6 月 26 日
- 筆記
1 分布式机器学习概述 大规模机器学习训练常面临计算量大、训练数据大(单机存不下)、模型规模大的问题,对此分布式机器学习 …
Continue Reading1 分布式机器学习概述 大规模机器学习训练常面临计算量大、训练数据大(单机存不下)、模型规模大的问题,对此分布式机器学习 …
Continue Reading摘要:对于Spark用户而言,借助Volcano提供的批量调度、细粒度资源管理等功能,可以更便捷的从Hadoop迁移到K …
Continue Reading最近要在 Spark job 中通过 Spark SQL 的方式读取 Elasticsearch 数据,踩了一些坑,总结 …
Continue Reading1. PageRank的两种串行迭代求解算法 我们在博客《数值分析:幂迭代和PageRank算法(Numpy实现)》算法 …
Continue Reading1. 梯度计算式导出 我们在博客《统计学习:逻辑回归与交叉熵损失(Pytorch实现)》中提到,设\(w\)为权值(最后 …
Continue Reading1 导引 我们在博客《Hadoop: 单词计数(Word Count)的MapReduce实现 》中学习了如何用Hado …
Continue Reading摘要:相比MapReduce僵化的Map与Reduce分阶段计算相比,Spark的计算框架更加富有弹性和灵活性,运行性能 …
Continue Reading本文目录 一、Apache Spark 二、Spark SQL发展历程 三、Spark SQL底层执行原理 四、Cata …
Continue ReadingSpark配置介绍 Spark中的配置选项在四个地方可以进行配置,其中优先级如下: SparkConf(代码) > …
Continue ReadingSpark系列面试题 Spark面试题(一) Spark面试题(二) Spark面试题(三) Spark面试题(四) S …
Continue Reading