ceph分佈式存儲簡介

2020 年 7 月 19 日
筆記

Ceph簡介

什麼是分佈式存儲？ 我在一個環境當中，有很多很多的服務器，服務器上也有它自己很多的硬盤，我通過軟件的形式把若干服務器都收集起來，部署成一個軟件，在這個邏輯的軟件里可以同時看到我若干服務器的磁盤的空間，這個邏輯的軟件對外就像是一個整體一樣，這個整體叫storage spool，用戶呢有一天想用這個空間了，用戶直接去對應這個存儲池提供的接口，這用的話，用戶保存一個文件，實際上保存在若干個服務器里，文件會隨機存到第一個服務器的第一塊硬盤裡，下一次就可能存到第二個服務器的第三塊硬盤裡。它會把文件進行打散，分成不同的小塊，每塊存放的位置可能是不同的服務器上的不同硬盤裡。

分佈式存儲還可以對文件進行安全備份，我這個文件存在後端的服務器里，可以保存多份，多份叫副本也可以叫鏡像。就是說對我打散的每塊文件做一個鏡像在保存在不同服務器上的不同硬盤裡，這樣，如果後端有服務器宕掉了，我的文件還是完整的。ceph就可以做到這麼一種功能。

Ceph是一種為優秀的性能、可靠性和可擴展性而設計的統一的、分佈式文件系統。ceph 的統一體現在可以提供文件系統、塊存儲和對象存儲，分佈式體現在可以動態擴展。在國內一些公司的雲環境中，通常會採用 ceph 作為openstack 的唯一後端存儲來提高數據轉發效率。

Ceph項目最早起源於Sage就讀博士期間的工作（最早的成果於2004年發表），並隨後貢獻給開源社區。在經過了數年的發展之後，目前已得到眾多雲計算廠商的支持並被廣泛應用。RedHat及OpenStack都可與Ceph整合以支持虛擬機鏡像的後端存儲。

Ceph官網：//ceph.com/ Ceph文檔：//docs.ceph.org.cn/rados/

Ceph特點

高性能：

摒棄了傳統的集中式存儲元數據尋址的方案，採用CRUSH算法，數據分佈均衡，並行度高。
考慮了容災域的隔離，能夠實現各類負載的副本放置規則，例如跨機房、機架、感知等。
能夠支持上千個存儲節點的規模，支持TB到PB級的數據。

高可用性：

副本數可以靈活控制。（就是說讓副本保存份數可以多份，在正常的生產環境是保存3副本）
支持故障域分隔，數據強一致性。
多種故障場景自動進行修復自愈。
沒有單點故障，自動管理。（假如說我這個文件設置的是3副本，如果後端服務器壞掉，副本數不夠3，它會自動補充至3副本）

高可擴展性：

去中心化。
擴展靈活。
隨着節點增加而線性增長。

特性豐富：

支持三種存儲接口：塊存儲（我得到的是硬盤）、文件存儲（目錄）、對象存儲（有可能給你對接的是一個掛載的目錄，但是後端怎麼去存的，它會把數據打散，採用鍵值對形式存儲）。
支持自定義接口，支持多種語言驅動。

》》》點擊免費領取：2020持續更新Linux學習教程視頻實戰進階提升（學習路線+課程大綱+視頻教程+面試題+學習工具+大廠實戰手冊）

Ceph應用場景

Ceph可以提供對象存儲、塊設備存儲和文件系統服務，其對象存儲可以對接網盤（owncloud）應用業務等；其塊設備存儲可以對接（IaaS），當前主流的IaaS運平台軟件，如：OpenStack、CloudStack、Zstack、Eucalyptus等以及kvm等。

Ceph是一個高性能、可擴容的分佈式存儲系統，它提供三大功能：

對象存儲（RADOSGW）：提供RESTful接口，也提供多種編程語言綁定。兼容S3（是AWS里的對象存儲）、Swift（是openstack里的對象存儲）；
塊存儲（RDB）：由RBD提供，可以直接作為磁盤掛載，內置了容災機制；
文件系統（CephFS）：提供POSIX兼容的網絡文件系統CephFS，專註於高性能、大容量存儲；

什麼是塊存儲/對象存儲/文件系統存儲？

對象存儲：也就是通常意義的鍵值存儲，其接口就是簡單的GET、PUT、DEL 和其他擴展，代表主要有 Swift 、S3 以及 Gluster 等；
塊存儲：這種接口通常以 QEMU Driver 或者 Kernel Module 的方式存在，這種接口需要實現 Linux 的 Block Device 的接口或者 QEMU 提供的 Block Driver 接口，如 Sheepdog，AWS 的 EBS，青雲的雲硬盤和阿里雲的盤古系統，還有 Ceph 的 RBD（RBD是Ceph面向塊存儲的接口）。在常見的存儲中 DAS、SAN 提供的也是塊存儲；
文件系統存儲：通常意義是支持 POSIX 接口，它跟傳統的文件系統如 Ext4 是一個類型的，但區別在於分佈式存儲提供了並行化的能力，如 Ceph 的 CephFS (CephFS是Ceph面向文件存儲的接口)，但是有時候又會把 GlusterFS ，HDFS 這種非POSIX接口的類文件存儲接口歸入此類。當然 NFS、NAS也是屬於文件系統存儲；

Ceph核心組件

Monitors（管理服務）：監視器，維護集群狀態的多種映射，同時提供認證和日誌記錄服務，包括有關monitor 節點端到端的信息，其中包括 Ceph 集群ID，監控主機名和IP以及端口。並且存儲當前版本信息以及最新更改信息，通過 “ceph mon dump”查看 monitor map。
MDS（Metadata Server）：Ceph 元數據，主要保存的是Ceph文件系統的元數據。注意：ceph的塊存儲和ceph對象存儲都不需要MDS。
OSD：即對象存儲守護程序，但是它並非針對對象存儲。是物理磁盤驅動器，將數據以對象的形式存儲到集群中的每個節點的物理磁盤上。OSD負責存儲數據、處理數據複製、恢復、回（Backfilling）、再平衡。完成存儲數據的工作絕大多數是由 OSD daemon 進程實現。在構建 Ceph OSD的時候，建議採用SSD 磁盤以及xfs文件系統來格式化分區。此外OSD還對其它OSD進行心跳檢測，檢測結果彙報給Monitor
RADOS：Reliable Autonomic Distributed Object Store。RADOS是ceph存儲集群的基礎。在ceph中，所有數據都以對象的形式存儲，並且無論什麼數據類型，RADOS對象存儲都將負責保存這些對象。RADOS層可以確保數據始終保持一致。
librados：librados庫，為應用程度提供訪問接口。同時也為塊存儲、對象存儲、文件系統提供原生的接口。
RADOSGW：網關接口，提供對象存儲服務。它使用librgw和librados來實現允許應用程序與Ceph對象存儲建立連接。並且提供S3 和 Swift 兼容的RESTful API接口。
RBD：塊設備，它能夠自動精簡配置並可調整大小，而且將數據分散存儲在多個OSD上。
CephFS：Ceph文件系統，與POSIX兼容的文件系統，基於librados封裝原生接口。

Ceph存儲系統的邏輯層次結構

RADOS的系統邏輯結構

Ceph數據存儲過程

一個文件在ceph里怎麼做的讀取和存儲？

首先用戶把一個文件放到ceph集群後，先把文件進行分割，分割為等大小的小塊，小塊叫object，讓後這些小塊跟據一定算法跟規律，算法是哈希算法，放置到PG組裡，就是歸置組，然後再把歸置組放到OSD裏面。

無論使用哪種存儲方式（對象、塊、文件系統），存儲的數據都會被切分成Objects。Objects size大小可以由管理員調整，通常為2M或4M。每個對象都會有一個唯一的OID，由ino與ono生成，雖然這些名詞看上去很複雜，其實相當簡單。

ino：即是文件的File ID，用於在全局唯一標識每一個文件
ono：則是分片的編號

比如：一個文件FileID為A，它被切成了兩個對象，一個對象編號0，另一個編號1，那麼這兩個文件的oid則為A0與A1。

File —— 此處的file就是用戶需要存儲或者訪問的文件。對於一個基於Ceph開發的對象存儲應用而言，這個file也就對應於應用中的「對象」，也就是用戶直接操作的「對象」。

Ojbect —— 此處的object是RADOS所看到的「對象」。Object與上面提到的file的區別是，object的最大size由RADOS限定（通常為2MB或4MB），以便實現底層存儲的組織管理。因此，當上層應用向RADOS存入size很大的file時，需要將file切分成統一大小的一系列object（最後一個的大小可以不同）進行存儲。為避免混淆，在本文中將盡量避免使用中文的「對象」這一名詞，而直接使用file或object進行說明。

PG（Placement Group）—— 顧名思義，PG的用途是對object的存儲進行組織和位置映射。具體而言，一個PG負責組織若干個object（可以為數千個甚至更多），但一個object只能被映射到一個PG中，即，PG和object之間是「一對多」映射關係。同時，一個PG會被映射到n個OSD上，而每個OSD上都會承載大量的PG，即，PG和OSD之間是「多對多」映射關係。在實踐當中，n至少為2，如果用於生產環境，則至少為3。一個OSD上的PG則可達到數百個。事實上，PG數量的設置牽扯到數據分佈的均勻性問題。關於這一點，下文還將有所展開。

OSD —— 即object storage device，前文已經詳細介紹，此處不再展開。唯一需要說明的是，OSD的數量事實上也關係到系統的數據分佈均勻性，因此其數量不應太少。在實踐當中，至少也應該是數十上百個的量級才有助於Ceph系統的設計發揮其應有的優勢。

基於上述定義，便可以對尋址流程進行解釋了。具體而言， Ceph中的尋址至少要經歷以下三次映射：（1）File -> object映射（2）Object -> PG映射，hash(oid) & mask -> pgid （3）PG -> OSD映射，CRUSH算法

CRUSH，Controlled Replication Under Scalable Hashing，它表示數據存儲的分佈式選擇算法， ceph 的高性能/高可用就是採用這種算法實現。CRUSH 算法取代了在元數據表中為每個客戶端請求進行查找，它通過計算系統中數據應該被寫入或讀出的位置。CRUSH能夠感知基礎架構，能夠理解基礎設施各個部件之間的關係。並CRUSH保存數據的多個副本，這樣即使一個故障域的幾個組件都出現故障，數據依然可用。CRUSH 算是使得 ceph 實現了自我管理和自我修復。

RADOS 分佈式存儲相較於傳統分佈式存儲的優勢在於:

將文件映射到object後，利用Cluster Map 通過CRUSH 計算而不是查找表方式定位文件數據存儲到存儲設備的具體位置。優化了傳統文件到塊的映射和Block MAp的管理。
RADOS充分利用OSD的智能特點，將部分任務授權給OSD，最大程度地實現可擴展

》》》點擊免費領取：2020持續更新Linux學習教程視頻實戰進階提升（學習路線+課程大綱+視頻教程+面試題+學習工具+大廠實戰手冊）

Ceph IO流程及數據分佈

正常IO流程圖：

步驟：

client 創建cluster handler。
client 讀取配置文件。
client 連接上monitor，獲取集群map信息。
client 讀寫io 根據crshmap 算法請求對應的主osd數據節點。
主osd數據節點同時寫入另外兩個副本節點數據。
等待主節點以及另外兩個副本節點寫完數據狀態。
主節點及副本節點寫入狀態都成功後，返回給client，io寫入完成。

新主IO流程圖：

說明：如果新加入的OSD1取代了原有的 OSD4成為 Primary OSD, 由於 OSD1 上未創建 PG , 不存在數據，那麼 PG 上的 I/O 無法進行，怎樣工作的呢？

新主IO流程步驟：

client連接monitor獲取集群map信息。
同時新主osd1由於沒有pg數據會主動上報monitor告知讓osd2臨時接替為主。
臨時主osd2會把數據全量同步給新主osd1。
client IO讀寫直接連接臨時主osd2進行讀寫。
osd2收到讀寫io，同時寫入另外兩副本節點。
等待osd2以及另外兩副本寫入成功。
osd2三份數據都寫入成功返回給client, 此時client io讀寫完畢。
如果osd1數據同步完畢，臨時主osd2會交出主角色。
osd1成為主節點，osd2變成副本。

Ceph Pool和PG分佈情況

pool：是ceph存儲數據時的邏輯分區，它起到namespace的作用。每個pool包含一定數量(可配置) 的PG。PG里的對象被映射到不同的Object上。pool是分佈到整個集群的。 pool可以做故障隔離域，根據不同的用戶場景不統一進行隔離。

》》》點擊免費領取：2020持續更新Linux學習教程視頻實戰進階提升（學習路線+課程大綱+視頻教程+面試題+學習工具+大廠實戰手冊）