大數據開發體系,進來了解一下?
- 2019 年 10 月 5 日
- 筆記
1. 大數據基礎及工具
掌握Linux必備知識,熟悉Python的使用與爬蟲程式的編寫,搭建Hadoop(CDH)集群,為大數據技術學習打好基礎。
l Linux必備知識
l Docker安裝與使用
l Python基礎及網路爬蟲講解
l 分散式協調基石框架:Zookeeper
l 大數據集群搭建

2. HADOOP專題
掌握離線數據處理的流程、架構及相關技術的運用。掌握大數據核心基礎組件:HDFS,MapReduce及YARN。
l 大數據基石框架:Hadoop
l 離線批處理:Hive
l 數據採集:flume

3. SPARK專題
Spark採用一個統一的技術堆棧解決了雲計算大數據的如流處理、圖技術、機器學習、NoSQL查詢等方面的所有核心問題,具有完善的生態系統,大數據的學習需要從理論到核心源碼全面掌握主流通用大數據處理框架:Spark
l Scala語言精講
l Spark概要
l Spark core
l Spark SQL
l SparkStreaming
l Spark存儲系統及調度系統
l Spark計算引擎

4. 實時計算專題
熟悉實時處理的應用場景,掌握實時數據處理的流程、架構及相關技術的運用。掌握實時通用處理框架、Flink及實時主流技術組件:Kafka、Hbase。
l 分散式消息系統:Kafka
l 新一代通用處理框架:Flink
l 高性能分散式資料庫:Hbase

5. 數倉專題
講解數據倉庫背景知識,常用數倉模型,ETL主流工具Sqoop,Kettle,Oozie和Azkaban。掌握數據倉庫搭建過程及具體技術的應用。
l 數倉概要知識、建模理論、數據治理
l 數倉ETL工具:Sqoop、Kettle
l 數倉任務調度工具:Azkaban

6. 搜索與推薦專題
了解了搜索和推薦兩大互聯網公司必有的大數據應用系統的通用架構,常用演算法和相關技術。
l 全文搜索引擎ElasticSearch
l 推薦理論

7. 機器學習演算法專題
機器學習為現階段大數據重要處理方式,這一部分我們要掌握常用機器學習演算法思想、過程和在實際問題中的應用
l 機器學習概要
l 分類問題常用演算法
l 預測問題常用演算法

8. 其他組件與場景運用
l 生產應用相關
l 互動式查詢
