大数据问题处理分析 - CodingNote.cc

SparkSQL中产生笛卡尔积的几种典型场景以及处理策略

2021 年 3 月 16 日
笔记

【前言：如果你经常使用Spark SQL进行数据的处理分析，那么对笛卡尔积的危害性一定不陌生，比如大量占用集群资源导致其 …

Continue Reading

Spark SQL中Not in Subquery为何低效以及如何规避

2021 年 3 月 12 日
笔记

首先看个Not in Subquery的SQL： // test_partition1 和 test_partition …

Continue Reading

Hive实现自增序列及常见的Hive元数据问题处理

2021 年 2 月 26 日
笔记

Hive实现自增序列在利用数据仓库进行数据处理时，通常有这样一个业务场景，为一个Hive表新增一列自增字段（比如事实表 …

Continue Reading