spark - 頁4，共15 - CodingNote.cc

Spark面試題（五）——數據傾斜調優

2021 年 11 月 15 日
筆記

1、數據傾斜數據傾斜指的是，並行處理的數據集中，某一部分（如Spark或Kafka的一個Partition）的數據顯著 …

Spark整合Hive

2021 年 11 月 13 日
筆記

spark-sql 寫代碼方式 1、idea裏面將代碼編寫好打包上傳到集群中運行，上線使用 spark-submit提交 …

hudi clustering 數據聚集（三 zorder使用）

2021 年 11 月 13 日
筆記

目前最新的 hudi 版本為 0.9，暫時還不支持 zorder 功能，但 master 分支已經合入了（RFC-28) …

Spark中資源調度和任務調度

2021 年 11 月 12 日
筆記

Spark比MR快的原因 1、Spark基於內存的計算 2、粗粒度資源調度 3、DAG有向無環圖：可以根據寬窄依賴劃分出 …

hudi clustering 數據聚集（二）

2021 年 11 月 12 日
筆記

小文件合併解析執行代碼： import org.apache.hudi.QuickstartUtils._ impor …

RDD的緩存

2021 年 11 月 11 日
筆記

RDD的緩存/持久化緩存解決的問題緩存解決什麼問題?-解決的是熱點數據頻繁訪問的效率問題在Spark開發中某些RD …

hudi clustering 數據聚集（一）

2021 年 11 月 11 日
筆記

概要數據湖的業務場景主要包括對數據庫、日誌、文件的分析，而管理數據湖有兩點比較重要：寫入的吞吐量和查詢性能，這裡主要說 …

RDD的詳解、創建及其操作

2021 年 11 月 10 日
筆記

RDD的詳解 RDD:彈性分佈式數據集,是Spark中最基本的數據抽象,用來表示分佈式集合,支持分佈式操作! RDD的創 …

Spark算子

2021 年 11 月 10 日
筆記

目錄算子分類轉換（Transformations）算子 Map FlatMap MapPartitions Filt …

Spark的安裝及其配置

2021 年 11 月 8 日
筆記

1.Spark下載 //archive.apache.org/dist/spark/ 2.上傳解壓，配置環境變量配 …

Spark面試題（五）——數據傾斜調優

Spark整合Hive

hudi clustering 數據聚集（三 zorder使用）

Spark中資源調度和任務調度

hudi clustering 數據聚集（二）

RDD的緩存

hudi clustering 數據聚集（一）

RDD的詳解、創建及其操作

Spark算子

Spark的安裝及其配置

VirMach 便宜 VPS

QNews

Spark面試題（五）——數據傾斜調優

Spark整合Hive

hudi clustering 數據聚集（三 zorder使用）

Spark中資源調度和任務調度

hudi clustering 數據聚集（二）

RDD的緩存

hudi clustering 數據聚集（一）

RDD的詳解、創建及其操作

Spark算子

Spark的安裝及其配置

VirMach 便宜 VPS

QNews

熱門搜尋