初識EMR(彈性MapReduce)
- 2020 年 1 月 16 日
- 筆記
一、前言
現在混跡技術圈的各位大佬,誰還沒有聽說過「大數據」呢?提起「大數據」不得不說就是Google的「三架馬車」:GFS,MapReduce,Bigtable,分別代表著分散式文件系統、分散式計算、結構化存儲系統。可以說這「三架馬車」是大數據的基礎。
二、EMR系統架構
彈性 MapReduce 的軟體完全源於開源社區中的 Hadoop 軟體,您可以將現有的大數據集群無縫平滑遷移至騰訊雲上。彈性 MapReduce 產品中集成了社區中常見的熱門組件,包括但不限於 Hive、Hbase、Spark、Presto、Sqoop、Hue 等,可以滿足您對大數據的離線處理、流式計算等全方位需求。接著跟著我的講述去認識一下EMR吧!!!下面的圖便是EMR的系統架構圖:

經過上圖我們可以看出:EMR部署在騰訊雲平台(CVM)上,配合消息中間件、CDB等產品為企業提供了一套較為完善的大數據處理方案。
底層的存儲系統:對象存儲(Cloud Object Storage,COS)和HDFS;
資源管理器:Yarn;
計算引擎:Spark、Tez、MapReduce、Flink、Storm;
工具和應用:Hue、Ranger、Oozie、Sqoop、Flume、Ganglia、Alluxio
三、EMR節點類型
EMR 提供了5種節點類型, 注意: 高可用集群節點最小節點數為8個,包含2個 Master 節點,3個 Common 節點,最少3個 Core 節點。非高可 用集群存儲為單副本,可作為測試使用,不建議作為生產環境,最小節點數為3個,包含1個 Master 節點, 最少2個 Core 節點。

- Master 節點為管理節點,保證集群的調度正常進行。
- Core 節點為計算及存儲節點,在 HDFS 中的數據全部存儲於 Core 節點中,因此為了保證數據安全,擴容 Core 節點後不允許縮容。
- Task 節點為純計算節點,不存儲數據,被計算的數據來自 Core 節點及 COS 中,因此 Task 節點往往被作為彈性節點,可隨時擴容和縮容。
- Common 節點為 HA(高可用) 集群 Master 節點提供數據共享同步以及高可用容錯服務。
- Router 節點用以分擔 Master 節點的負載或者作為集群的任務提交機,可以隨時擴容和縮容。
四、EMR集群產品優勢
與自建 Hadoop 相比,彈性 MapReduce 能提供更方便、更安全、更可靠的雲端 Hadoop 服務。
靈活
只需幾分鐘即可獲得一個安全可靠的 Hadoop 集群,以運行 Hive、Spark、Presto 等主流開源大數據計算框架。可對一個已有的彈性 MapReduce 集群進行快速的彈性伸縮,以在變動的業務部門數據分析需求與高昂 IT 硬體成本之間快速獲得平衡點。
可靠
Master 節點容災設計,備節點秒級拉起,保障大數據服務可用性。
完善的監控體系建設,您可以通過簡訊渠道秒級感知集群組件及任務的運行異常狀況。
支援將 Hive 元數據存放於 TencentDB,元數據可靠性達99.9996%。
支援分析存放於 COS 的高存儲耐久性的 PB 級數據。
集群默認開啟回收站功能。
安全
可通過便捷的 VPC 網路安全隔離手段規劃託管 Hadoop 集群網路策略,支援網路 ACL 和安全組,可從子網和主機維度篩選流量,全方位滿足網路安全需求。騰訊雲品質的安全加固服務為 EMR 集群提供一體化的安全服務,涵蓋網路防護、入侵檢測、漏洞防護等。
易用
可以響應業務需求創建不同版本的集群分析 COS 上的同一份數據。可以藉助開箱即用的 Hue、Oozie 等社區組件隨心分析位於數據節點或 COS 上的 PB 級數據,無需擔心產生任何知識遷移成本。
節約成本
通過 EMR 服務,可以按業務曲線隨心伸縮託管 Hadoop 集群,縮減高昂的硬體成本。豐富的運維工具支援,大幅提升運維工作效率,讓工程師更專註於業務本身的商業價值,擺脫重複搭建監控、安全、運維工具等基礎設施。
五、EMR集群產品功能
彈性伸縮
分鐘級集群創建:通過控制台數分鐘就可創建一個安全、穩定的雲端託管 Hadoop 集群。
分鐘級集群擴縮容:僅需數分鐘即可對現有 EMR 集群進行平滑擴縮容,以適應互聯網業務需求的快速變化。
API 支援:支援通過 API 方式便捷的在程式中創建、擴縮容、銷毀 EMR 集群。
存儲計算分離
集群記憶體儲計算分離:集群內支援按照存儲節點、計算節點的模式來規劃雲端 Hadoop 集群,以支援客戶對計算節點的隨意伸縮來降低硬體成本。
基於 COS 的存儲計算分離:支援把待分析海量數據存放於 COS,在通過 COS 規模化效應降低存儲成本的同時,您還可以創建不同 EMR 版本分析同一份數據,這將為您帶來極度的架構靈活性。
運維支撐
監控與多渠道告警:提供完善的監控運維體系,對包含 Spark、Hive、Presto 等在內的組件異常和任務異常的秒級感知,以保障大數據集群的穩健運行。
技術服務支援:在提供完善技術文檔之外,還支援包含郵件、QQ、微信等渠道在內的技術服務體系,為客戶提供完備的技術支援。
安全
EMR 創建的 CVM 子機同時會創建安全組來限制外網訪問。各組件 Web UI 均通過其中一台有外網 IP 的子機進行訪問,並且通過用戶名和密碼進行驗證,有外網 IP 的子機安全組只開放 SSH 埠和代理訪問埠。
注意:CVM 子機如果更換項目會導致 CVM 安全組丟失