基于Hive进行数仓建设的资源元数据信息统计:Spark篇
- 2021 年 4 月 8 日
- 筆記
在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据 …
Continue Reading在数据仓库建设中,元数据管理是非常重要的环节之一。根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据 …
Continue Reading【前言:如果你经常使用Spark SQL进行数据的处理分析,那么对笛卡尔积的危害性一定不陌生,比如大量占用集群资源导致其 …
Continue Reading首先看个Not in Subquery的SQL: // test_partition1 和 test_partition …
Continue Reading如果你比较熟悉JavaWeb应用开发,那么对Spring框架一定不陌生,并且JavaWeb通常是基于SSM搭起的架构,主 …
Continue Reading对于Spark的初学者,往往会有一个疑问:Spark(如SparkRDD、SparkSQL)在处理数据的时候,会将数据都 …
Continue Reading几年前,包括最近,我看了各种书籍、教程、官网。但是真正能够把RDD、DataFrame、DataSet解释得清楚一点的、 …
Continue Reading目标: 监控Oracle某张记录表,有新增数据则获取表数据,并推送到微信企业。 流程: Kafka实时监控Oracle指 …
Continue Reading前言 众所周知,Catalyst Optimizer是Spark SQL的核心,它主要负责将SQL语句转换成最终的物理执 …
Continue ReadingSpark简介 Apache Spark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的 …
Continue Reading在之前的文章《解析SparkStreaming和Kafka集成的两种方式》中已详细介绍SparkStreaming和Ka …
Continue Reading