【大數據學習與分享】技術乾貨合集
大數據學習與分享】主要是做什麼的?
【大數據學習與分享】主要專註於大數據領域常用的技術,如Spark、Hadoop、Hive、HBase、Kafka、Zookeeper等技術的使用、實戰技巧、源碼解讀,語言主要以Java和Scala為主,保證文章品質,為大家提供一個優質的大數據學習與分享平台。同時也會涉及到目前市場上已經開源的並且在企業中已得到實際應用的基於這些技術進行「封裝」的一些技術。
但是專註於大數據卻並不僅僅是大數據,畢竟技術是相通的,很多技術往往都有其共性,但也有各自的特色也就有了不同的適用場景。我們在學習一個技術的時候,不僅僅要學習如何用這個技術、如何學習它的原理等,更要了解它的思想,比如設計思想。這不僅僅會讓我們對這個技術有更深層次的理解,也會幫助我們迅速的學習其他的如與其相關的技術,做到舉一反三,事半而功倍。
【大數據學習與分享】能為大數據領域從業者帶來什麼?
其實不僅僅是大數據領域從業者,任何從事IT工作或者對IT技術感興趣的人,相信在這裡都能受益匪淺。技術乾貨、面試分享、源碼解讀、大數據項目經驗以及實實在在的可用於實際企業開發的編程知識等都會陸續呈獻給大家,後期還會為大家帶來一些免費的學習資源,希望能夠幫助小夥伴們在大數據領域得到更好的發展。
當然很多事物的成長都是雙向的,「大數據學習與分享」也不例外。在為各位小夥伴們兒帶來技術領域乾貨的同時,也希望能夠得到各位的支援,如果有好的建議也希望不吝賜教。
【大數據學習與分享】目前的願景?
【大數據學習與分享】致力於從概念到使用、從基礎到原理、從示例到實戰的講解一個技術,並會結合一些實際中當運用這些技術時遇到的問題以及如何解決這些問題做一些分享交流,希望為所有技術愛好者帶來一個學習、交流、分享的平台。
【大數據學習與分享】技術乾貨合集
大數據和OLAP技術匯總篇
Spark篇
- Spark集群和任務執行
- 對Spark硬體配置的建議
- Spark閉包 | driver & executor程式程式碼執行
- Spark RDD詳解
- Spark為什麼只有在調用action時才會觸發任務執行呢(附運算元優化和使用示例)?
- 通過spark.default.parallelism談Spark並行度
- 聊聊Spark的分區
- 重要 | Spark分區並行度決定機制
- Spark在處理數據的時候,會將數據都載入到記憶體再做處理嗎?
- Spark SQL | 目前Spark社區最活躍的組件之一
- Spark SQL解析查詢parquet格式Hive表獲取分區欄位和查詢條件
- Spark存儲Parquet數據到Hive,對map、array、struct欄位類型的處理
- Spark SQL 小文件問題處理
- SparkSQL與Hive metastore Parquet轉換
- Spark SQL如何選擇join策略
- Spark SQL中Not in Subquery為何低效以及如何規避
- SparkSQL中產生笛卡爾積的幾種典型場景以及處理策略
- SparkSQL真的不支援存儲NullType類型數據到Parquet嗎?
- Spark中廣播變數詳解以及如何動態更新廣播變數
- Spark流式狀態管理
- 解析SparkStreaming和Kafka集成的兩種方式
- Spark推薦系統實踐
- Spark實現推薦系統中的相似度演算法
- Spark MLlib中KMeans聚類演算法的解析和應用
- Spark和Spring整合處理離線數據
- 通過Spark生成HFile,並以BulkLoad方式將數據導入到HBase
- 如何獲取流式應用程式中checkpoint的最新offset
- Spark之離線統計熱點城市資訊
- 學好Spark必須要掌握的Scala技術點
- Spark Executor記憶體管理
- Spark 數據傾斜及其解決方案
- 不可不知的Spark調優點
- 重要 | Spark和MapReduce的對比
- Spark和MapReduce任務計算模型
- Apache Spark 3.0.0重磅發布 —— 重要特性全面解析
- 自適應查詢執行:在運行時提升Spark SQL執行性能
- 【PySpark源碼解析】用Python調用高效Scala介面,搞定大規模數據分析
Hadoop篇
Hive篇
- Apache Hive
- Hive Join優化
- Hadoop支援的壓縮格式對比和應用場景以及Hadoop native庫
- Hive實現自增序列及元數據問題
- Hive Query生命周期 —— 鉤子(Hook)函數篇
- Hive常用性能優化方法實踐全面總結
- 基於Hive進行數倉建設的資源元數據資訊統計
- Spark SQL/Hive實用函數大全
- 經典的SparkSQL/Hive-SQL/MySQL面試-練習題
- Hive中的count(distinct)優化
HBase篇
- 深入探討HBASE
- HBase高級特性、rowkey設計以及熱點問題處理
- HBase中Memstore存在的意義以及多列族引起的問題和設計
- Hive數據導入HBase引起數據膨脹引發的思考
- 通過Spark生成HFile,並以BulkLoad方式將數據導入到HBase
- 從HBase底層原理解析HBASE列族不能設計太多的原因?
- 通過BulkLoad快速將海量數據導入到HBase
Kafka篇
- 分散式流平台Kafka
- Kafka作為消息系統的系統解析
- Kafka中sequence IO、PageCache、SendFile的應用詳解
- Kafka分區分配策略(Partition Assignment Strategy)
- 如何為Kafka集群確定合適的分區數以及分區數過多帶來的弊端
- Kafka集群消息積壓問題及處理策略
- Kafka作為存儲系統在Twitter的應用
數據倉庫和數據分析篇
- 九種常見的數據分析模型
- 從統計學到機器學習,必須掌握的5個核心概念
- 淺談數據倉庫建設中的數據建模方法
- 數據倉庫架構和建設方法論
- 數據湖VS數據倉庫之爭?阿里提出湖倉一體架構
- 初創公司數據倉庫的建設實踐
- 詳解數據倉庫的實施步驟
- 辨析BI、數據倉庫、數據湖和數據中台內涵及差異點
- 企業大數據平台倉庫架構建設思路
應用實踐篇
- 大數據平台架構設計探究
- 都在說實時數據架構,你了解多少?
- 從 Spark Streaming 到 Apache Flink:bilibili 實時平台的架構與實踐
- 菜鳥供應鏈實時數倉的架構演進及應用場景
- OPPO 實時數倉揭秘:從頂層設計實現離線與實時的平滑遷移
- 有贊大數據平台安全建設實踐
- 海量數據實時分析服務技術架構演進
- 有贊數據倉庫實踐之路
- 有贊大數據離線集群遷移實戰
- 餓了么元數據管理實踐之路
- 元數據:數據治理的基石
- 數據品質:數據治理的核心
- 當我們聊數據品質的時候,我們在聊些什麼?
- 有贊數據倉庫元數據系統實踐
- 面向企業數據中台的數據治理七把利劍
- 數據資產,贊之治理
- 下一個風口-基於數據湖架構下的數據治理
- 從數倉到數據中台,談技術選型最優解
- 辨析BI、數據倉庫、數據湖和數據中台內涵及差異點
- 有贊大數據離線集群遷移實戰
- 如何設計實時數據平台 —— 技術選型與架構設計
- 數倉大法好!跨境電商 Shopee 的實時數倉之路
- 實時離線一體化助力渠道分析系統
- 推薦系統之標籤體系
程式語言篇
Linux
職場經驗篇
其他
關注微信公眾號:大數據學習與分享,獲取更對技術乾貨