一次硬碟故障引發的基礎架構改造

  • 2019 年 10 月 25 日
  • 筆記

周五早上,小 D 正在處理下單事宜,突然電話響起…..

客戶:小 D 啊,SOS!昨天我們給一台 MD 存儲進行硬碟擴容,不知道哪一步出了問題,伺服器識別不到存儲的數據卷了!這些數據千萬不能丟啊,裡面存放了近幾年的設計圖紙,整個設計部現在都要快癱瘓了!

小 D:請您提供出問題的 MD 存儲編號,我查詢一下。

客戶:好的,編號是 123456X。

小 D:這台存儲已經過保,目前沒有售後服務了。別著急,請您發一封郵件給我,寫清楚所做的擴容操作,我轉給工程師處理。

客戶:好的,拜託了!

經過工程師的確認,客戶在擴容操作中執行了錯誤的命令,導致了數據卷被刪除。然而,小 D 沒有放棄幫助客戶,他利用各種內外部資源,最後將客戶丟失的數據恢復了 80%。

經歷了這次慘痛的教訓,客戶意識到其公司 IT 基礎架構需要進行徹底改造。客戶為小 D 提供了如下訴求:

① 客戶計劃在煙台總部以外的兩個地市建立分支機構,每個地點都放置一台獨立存儲;

② IT 和使用者習慣了基於 Windows NAS 的使用方式;

③ 經曆數據丟失的事故後,數據保護方案提上日程。

當他把這一想法告訴小D,小D立刻拿出了一份早已準備好的存儲容災建議書。原來,小 D 在處理客戶數據丟失事故的同時,已經想到要為其提供一套改造計划了。以此為藍本,在經過多輪溝通商討以後,Windows DFS+Dell EMC R730+SC5020+SCv3020 的解決方案終於 「出爐」 了,如下圖所示:

1

DFS 實現分支結構文件共享

基於 Windows DFS(分散式文件系統)架構搭建三地文件共享訪問系統,解決了客戶總部、分支機構及 Remote 用戶對文件訪問的需求;

上圖展示了 ABC 公司的一個 DFS 的典型架構拓撲,從圖中可以看到兩個城市的機房均部署了一台 Server 作為文件伺服器,名稱分別為 YT-SRV-01 和 QD-SRV-01,這兩台伺服器安裝 DFS 服務。各地的用戶在前端訪問一個統一的命名空間:\ABC.comDesign,用戶不會感知到他們所訪問是哪一台物理伺服器。

實際上在後台,為了保證用戶體驗,我們實行的是就近訪問原則,即煙台的用戶訪問 YT-SRV-01,青島用戶訪問 QD-SRV-01。通過 DFS 的複製功能,兩台伺服器實現了數據文件的同步和更新。

這裡所提到的兩個重要特性:

DFS 命名空間

可以將位於不同伺服器上的共享文件夾,組合到一個或多個邏輯結構的命名空間。每個命名空間作為具有一系列子文件夾的單個共享文件夾顯示給用戶。 但是,命名空間的基本結構可以包含位於不同伺服器以及多個站點中的大量文件共享。為用戶提供一個集中的文件夾命名空間,通過該空間可訪問和存儲文件。 你可以將基礎文件共享放在不同的伺服器上和不同的站點中以提高可用性和性能。

DFS 複製

讓用戶有效地在多個伺服器和站點上複製文件夾(包括那些由 DFS 命名空間路徑引用的文件夾)。DFS 複製使用一種稱為遠程差分壓縮(RDC)的壓縮演算法。 RDC 檢測對文件中數據的更改,並使 DFS 複製僅複製已更改文件塊而非整個文件。跨 LAN 或 WAN 網路連接,在伺服器之間有效地同步文件夾內容。

2

冷熱數據分層 隨需存放

SC 存儲可配置基於 RAID 的數據分層和不同性能磁碟之間的數據分層技術,讓客戶在預算範圍內獲得存儲容量 / 性能的最大收益。

例如,要創建名為 「資料手冊」 的卷,容量 10T。由於設計部數據需要經常被讀寫,那麼存儲配置類型可以指定為 「High Priority」,這樣 「設計部」 數據卷會僅使用 SSD 盤。

再比如創建 「項目存檔」 卷,容量為 5T。由於此卷只用來存放一些體積比較大,又無需經常被訪問的文件,我們可以把存儲配置類型指定為 「Low Priority」,此卷只會用到低速盤。

如果既需要讀寫時的磁碟高性能和存放時的經濟性,那建議把數據卷配置為 「Recommended」。如創建名為 「系統工程部文件資料」 的數據卷,容量為 5T。存儲會自動把熱數據(經常被讀寫)存放在 SSD 上,冷數據(長時間不被讀寫)存放在低速盤上。

如果需要後續調整,也可以在 Storage Manager 介面可以配置數據卷(Volume)的存儲配置文件(Storage Profile):

3

持續數據保護 有備無患

SC 存儲內嵌 CDP(持續數據保護),對重要的數據卷實現多台存儲遠程非同步複製功能,讓用戶數據有備無患。

關於 CDP:

SC 存儲能夠以分鐘級別為單位執行快照,最快頻率為 1 分鐘 1 次。可為數據卷保留多個時間點的快照,對於一些篡改、誤刪除、中病毒的防護非常有效。

以上圖為例,針對某個數據卷執行每 15 分鐘一次的快照策略,數據卷當前擁有 11:45,12:00,12:15 三份快照。當用戶發現在 12:02 分時,此數據卷中了病毒,那麼用戶可以將數據卷恢復到中毒之前的快照,也就是 11 點 45 分或 12 點的快照。

複製功能:

利用 Dell EMC Storage Manager 存儲管理軟體,用戶可以為數據卷規劃和實施災難恢復策略。作為整個災難恢復計劃的一部分,複製操作將卷數據從一個受管存儲系統複製到另一個受管存儲系統,從而保護數據抵禦本地或區域數據威脅。如果源存儲系統或源站點變得不可用,可以激活目標卷以繼續訪問數據。

以上圖為例,伺服器(1)發送一個 IO 請求(2)來修改源卷(3),對源卷所做的更改,通過 FC 或 iSCSI 複製(4)到目標卷(5)。

SC 存儲的複製有兩種類型:非同步和同步。非同步複製會在快照凍結後定期將快照數據複製到目標卷。同步複製會將數據同時寫入源卷和目標卷,以確保它們始終保持同步。對於兩個相距較遠,網路頻寬不高的站點來說,非同步複製是一個很好的選擇。而且非同步複製還可以支援重複數據消除,即通過僅複製快照歷史記錄更改的部分,減少向目標存儲傳輸快照所需的數據量。實現方式是將要複製的快照中的已更改數據與以前的數據進行逐數據塊比較,然後僅傳輸存在差異的數據塊。

為了滿足客戶的不同需要,我們還提供了多種複製關係:

● 混合模式:源卷並行複製到多個目標存儲。

示例:並行創建了兩個複製:

– 複製 1:Storage Center A → Storage Center B

– 複製 2:Storage Center A → Storage Center C

● 級聯模式:源卷串列複製到多個目標存儲。

示例:串列創建了兩個複製:

– 複製 1:Storage Center A → Storage Center B

– 複製 2:Storage Center B → Storage Center C

整套方案落地以後,小 D 又接到了客戶的電話:

客戶:小 D 啊,緊急求助!

小 D:啊,不會是數據又丟了吧?

客戶:是這樣,咱們的三地數據容災方案已經部署好了,經過測試,公司用戶和領導都非常滿意,希望我整理一份材料存檔,有些資料需要你幫忙提供。

小 D:只要不是數據丟失,這些都不是事,包著我身上。

客戶:有了這個容災方案,就等於有了你們 DELL EMC 保駕護航,我放心!