spark - 页4，共15 - CodingNote.cc

Spark面试题（五）——数据倾斜调优

2021 年 11 月 15 日
笔记

1、数据倾斜数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著 …

Spark整合Hive

2021 年 11 月 13 日
笔记

spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 spark-submit提交 …

hudi clustering 数据聚集（三 zorder使用）

2021 年 11 月 13 日
笔记

目前最新的 hudi 版本为 0.9，暂时还不支持 zorder 功能，但 master 分支已经合入了（RFC-28) …

Spark中资源调度和任务调度

2021 年 11 月 12 日
笔记

Spark比MR快的原因 1、Spark基于内存的计算 2、粗粒度资源调度 3、DAG有向无环图：可以根据宽窄依赖划分出 …

hudi clustering 数据聚集（二）

2021 年 11 月 12 日
笔记

小文件合并解析执行代码： import org.apache.hudi.QuickstartUtils._ impor …

RDD的缓存

2021 年 11 月 11 日
笔记

RDD的缓存/持久化缓存解决的问题缓存解决什么问题?-解决的是热点数据频繁访问的效率问题在Spark开发中某些RD …

hudi clustering 数据聚集（一）

2021 年 11 月 11 日
笔记

概要数据湖的业务场景主要包括对数据库、日志、文件的分析，而管理数据湖有两点比较重要：写入的吞吐量和查询性能，这里主要说 …

RDD的详解、创建及其操作

2021 年 11 月 10 日
笔记

RDD的详解 RDD:弹性分布式数据集,是Spark中最基本的数据抽象,用来表示分布式集合,支持分布式操作! RDD的创 …

Spark算子

2021 年 11 月 10 日
笔记

目录算子分类转换（Transformations）算子 Map FlatMap MapPartitions Filt …

Spark的安装及其配置

2021 年 11 月 8 日
笔记

1.Spark下载 //archive.apache.org/dist/spark/ 2.上传解压，配置环境变量配 …

Spark面试题（五）——数据倾斜调优

Spark整合Hive

hudi clustering 数据聚集（三 zorder使用）

Spark中资源调度和任务调度

hudi clustering 数据聚集（二）

RDD的缓存

hudi clustering 数据聚集（一）

RDD的详解、创建及其操作

Spark算子

Spark的安装及其配置

VirMach 便宜 VPS

QNews

Spark面试题（五）——数据倾斜调优

Spark整合Hive

hudi clustering 数据聚集（三 zorder使用）

Spark中资源调度和任务调度

hudi clustering 数据聚集（二）

RDD的缓存

hudi clustering 数据聚集（一）

RDD的详解、创建及其操作

Spark算子

Spark的安装及其配置

VirMach 便宜 VPS

QNews

热门搜寻