Redis|Sentinel 高可用架構

  • 2019 年 10 月 3 日
  • 筆記

一 前言

Redis-Sentinel是Redis官方推薦的高可用性(HA)解決方案,當用Redis做Master-slave的高可用方案時,假如master宕機了,Redis本身(包括它的很多客戶端)都沒有實現自動進行主備切換,而Redis-sentinel本身也是一個獨立運行的進程,它能監控多個master-slave集群,發現master宕機後能進行自懂切換。它的主要功能有:
1 不時地監控redis是否按照預期良好地運行;
2 如果發現某個redis節點運行出現狀況,能夠通知另外一個進程(例如它的客戶端);
3 能夠進行自動切換。當一個master節點不可用時,能夠選舉出master的多個slave(如果有超過一個slave的話)中的一個來作為新的master,其它的slave節點會將它所追隨的master的地址改為被提升為master的slave的新地址。

二 實踐

本文介紹搭建主從複製以及三節點的sentinel 構建redis的高可用系統。其中 redis 一套主從 ,sentinel 三個節點 因為機器資源限制 ,兩個sentinel 節點和 redis復用。

2.1 環境準備

Redis版本:Redis-3.2.8  OS 版本 CentOS 6  redis、sentinel  10.9.34.172 reids master  10.9.43.207 reids slave  sentinel  10.9.34.252 sentinel

2.2 軟體安裝

wget http://download.redis.io/releases/redis-3.2.8.tar.gz  tar zxvf redis-3.2.8.tar.gz  mv redis-3.2.8 /usr/local/redis  cd /usr/local/redis  make PREFIX=/usr/local/redis install  cd src && make test

創建軟連接

ln -s /usr/local/redis/bin/redis-cli /usr/local/bin/redis-cli ;  ln -s /usr/local/redis/bin/redis-sentinel /usr/local/bin/redis-sentinel ;  ln -s /usr/local/redis/bin/redis-server /usr/local/bin/redis-server ;

2.3 配置文件

複製源碼包里中的sentinel.conf和redis.conf文件到 /etc/redis 目錄,我們需要重寫編寫配置文件,進行配置主從.

mkdir -p /etc/redis  cp /usr/local/redis/redis.conf /etc/redis/redis_7021.conf  cp /usr/local/redis/sentinel.conf /etc/redis/sentinel_17021.conf  cp /usr/local/redis/utils/redis_init_script /etc/init.d/redis

當然如果是想MySQL單機多實例那樣,redis配置文件還可以放到redis 的實例裡面 比如 /data/redis7021/redis.conf ,跟著redis實例走。
redis_7021.conf 的內容
需要注意的是 本人為了圖方便 去掉了許可權以及 bind 並且設置了protected-mode 為no ,安裝測試的過程中因為這兩個參數導致額外的幾個問題。生產上還是建議啟用這兩個參數的。還要記得本例子是主庫,從庫還要加上
slaveof master_ip port

redis.conf

#Redis configuration file example.  #./redis-server /path/to/redis.conf  ################################## INCLUDES ###################################  #這在你有標準配置模板但是每個redis伺服器又需要個性設置的時候很有用。  # include /path/to/local.conf  # include /path/to/other.conf  ################################ GENERAL #####################################  #是否在後台執行,yes:後台運行;no:不是後台運行(老版本默認)  daemonize yes  #3.2里的參數,是否開啟保護模式,默認開啟。要是配置里沒有指定bind和密碼。開啟該參數後,redis只會本地進行訪問,拒絕外部訪問。要是開啟了密碼 和bind,可以開啟。否 則最好關閉,設置為no。  protected-mode no    #redis的進程文件  pidfile "/data/redis_7021/run/redis.pid"    #redis監聽的埠號。  port 7021    #此參數確定了TCP連接中已完成隊列(完成三次握手之後)的長度, 當然此值必須不大於Linux系統定義的/proc/sys/net/core/somaxconn值,默認是511,而Linux的默認參數值是128。當系統並發量大並且客戶端速度緩慢的時候,可以將這二個參數一起參考設定。該內核參數默認值一般是128,對於負載很大的服務程式來說大大的不夠。一般會將它修改為2048或者更大。在/etc/sysctl.conf中添加:net.core.somaxconn = 2048,然後在終端中執行sysctl -p。  tcp-backlog 511    #指定 redis 只接收來自於該 IP 地址的請求,如果不進行設置,那麼將處理所有請求  #bind 10.9.34.172    #配置unix socket來讓redis支援監聽本地連接。  unixsocket "/data/redis_7021/run/redis.sock"  #配置unix socket使用文件的許可權  # unixsocketperm 700    # 此參數為設置客戶端空閑超過timeout,服務端會斷開連接,為0則服務端不會主動斷開連接,不能小於0。  timeout 0    #tcp keepalive參數。如果設置不為0,就使用配置tcp的SO_KEEPALIVE值,使用keepalive有兩個好處:檢測掛掉的對端。降低中間設備出問題而導致網路看似連接卻已經與對端埠的問題。在Linux內核中,設置了keepalive,redis會定時給對端發送ack。檢測到對端關閉需要兩倍的設置值。  tcp-keepalive 0    #指定了服務端日誌的級別。級別包括:debug(很多資訊,方便開發、測試),verbose(許多有用的資訊,但是沒有debug級別資訊多),notice(適當的日誌級別,適合生產環境),warn(只有非常重要的資訊)  loglevel notice    #指定了記錄日誌的文件。空字元串的話,日誌會列印到標準輸出設備。後台運行的redis標準輸出是/dev/null。  logfile "/data/redis_7021/log/alert.log"    #是否打開記錄syslog功能  # syslog-enabled no    #syslog的標識符。  # syslog-ident redis    #日誌的來源、設備  # syslog-facility local0    #資料庫的數量,默認使用的資料庫是DB 0。可以通過」SELECT 「命令選擇一個db  databases 16    ################################ SNAPSHOTTING ################################  # 快照配置  # 注釋掉「save」這一行配置項就可以讓保存資料庫功能失效  # 設置sedis進行資料庫鏡像的頻率。  # 900秒(15分鐘)內至少1個key值改變(則進行資料庫保存--持久化)  # 300秒(5分鐘)內至少10個key值改變(則進行資料庫保存--持久化)  # 60秒(1分鐘)內至少10000個key值改變(則進行資料庫保存--持久化)  #save 900 1  #save 300 10  #save 60 10000    #當RDB持久化出現錯誤後,是否依然進行繼續進行工作,yes:不能進行工作,no:可以繼續進行工作,可以通過info中的rdb_last_bgsave_status了解RDB持久化是否有錯誤  stop-writes-on-bgsave-error yes    #使用壓縮rdb文件,rdb文件壓縮使用LZF壓縮演算法,yes:壓縮,但是需要一些cpu的消耗。no:不壓縮,需要更多的磁碟空間  rdbcompression yes    #是否校驗rdb文件。從rdb格式的第五個版本開始,在rdb文件的末尾會帶上CRC64的校驗和。這跟有利於文件的容錯性,但是在保存rdb文件的時候,會有大概10%的性能損耗,所以如果你追求高性能,可以關閉該配置。  rdbchecksum no    #rdb文件的名稱  dbfilename "dump.rdb"    #數據目錄,資料庫的寫入會在這個目錄。rdb、aof文件也會寫在這個目錄  dir "/data/redis_7021/data"    ################################# REPLICATION #################################  #複製選項,slave複製對應的master。  # slaveof <masterip> <masterport>    #如果master設置了requirepass,那麼slave要連上master,需要有master的密碼才行。masterauth就是用來配置master的密碼,這樣可以在連上master後進行認證。  #masterauth "youzan"    #當從庫同主機失去連接或者複製正在進行,從機庫有兩種運行方式:1) 如果slave-serve-stale-data設置為yes(默認設置),從庫會繼續響應客戶端的請求。2) 如果slave-serve-stale-data設置為no,除去INFO和SLAVOF命令之外的任何請求都會返回一個錯誤」SYNC with master in progress」。  slave-serve-stale-data yes    #作為從伺服器,默認情況下是只讀的(yes),可以修改成NO,用於寫(不建議)。  slave-read-only yes    #是否使用socket方式複製數據。目前redis複製提供兩種方式,disk和socket。如果新的slave連上來或者重連的slave無法部分同步,就會執行全量同步,master會生成rdb文件。有2種方式:disk方式是master創建一個新的進程把rdb文件保存到磁碟,再把磁碟上的rdb文件傳遞給slave。socket是master創建一個新的進程,直接把rdb文件以socket的方式發給slave。disk方式的時候,當一個rdb保存的過程中,多個slave都能共享這個rdb文件。socket的方式就的一個個slave順序複製。在磁碟速度緩慢,網速快的情況下推薦用socket方式。  repl-diskless-sync no    #diskless複製的延遲時間,防止設置為0。一旦複製開始,節點不會再接收新slave的複製請求直到下一個rdb傳輸。所以最好等待一段時間,等更多的slave連上來。  repl-diskless-sync-delay 5    #slave根據指定的時間間隔向伺服器發送ping請求。時間間隔可以通過 repl_ping_slave_period 來設置,默認10秒。  repl-ping-slave-period 5    #複製連接超時時間。master和slave都有超時時間的設置。master檢測到slave上次發送的時間超過repl-timeout,即認為slave離線,清除該slave資訊。slave檢測到上次和master交互的時間超過repl-timeout,則認為master離線。需要注意的是repl-timeout需要設置一個比repl-ping-slave-period更大的值,不然會經常檢測到超時。  repl-timeout 60    #是否禁止複製tcp鏈接的tcp nodelay參數,可傳遞yes或者no。默認是no,即使用tcp nodelay。如果master設置了yes來禁止tcp nodelay設置,在把數據複製給slave的時候,會減少包的數量和更小的網路頻寬。但是這也可能帶來數據的延遲。默認我們推薦更小的延遲,但是在數據量傳輸很大的場景下,建議選擇yes。  repl-disable-tcp-nodelay no    #複製緩衝區大小,這是一個環形複製緩衝區,用來保存最新複製的命令。這樣在slave離線的時候,不需要完全複製master的數據,如果可以執行部分同步,只需要把緩衝區的部分數據複製給slave,就能恢復正常複製狀態。緩衝區的大小越大,slave離線的時間可以更長,複製緩衝區只有在有slave連接的時候才分配記憶體。沒有slave的一段時間,記憶體會被釋放出來,默認1m。  repl-backlog-size 32mb    #master沒有slave一段時間會釋放複製緩衝區的記憶體,repl-backlog-ttl用來設置該時間長度。單位為秒。  repl-backlog-ttl 3600    #當master不可用,Sentinel會根據slave的優先順序選舉一個master。最低的優先順序的slave,當選master。而配置成0,永遠不會被選舉。  slave-priority 100    #redis提供了可以讓master停止寫入的方式,如果配置了min-slaves-to-write,健康的slave的個數小於N,mater就禁止寫入。master最少得有多少個健康的slave存活才能執行寫命令。這個配置雖然不能保證N個slave都一定能接收到master的寫操作,但是能避免沒有足夠健康的slave的時候,master不能寫入來避免數據丟失。設置為0是關閉該功能。  # min-slaves-to-write 3    #延遲小於min-slaves-max-lag秒的slave才認為是健康的slave。  # min-slaves-max-lag 10    # 設置1或另一個設置為0禁用這個特性。  # Setting one or the other to 0 disables the feature.  # By default min-slaves-to-write is set to 0 (feature disabled) and  # min-slaves-max-lag is set to 10.    ################################## SECURITY ###################################  #requirepass配置可以讓用戶使用AUTH命令來認證密碼,才能使用其他命令。這讓redis可以使用在不受信任的網路中。為了保持向後的兼容性,可以注釋該命令,因為大部分用戶也不需要認證。使用requirepass的時候需要注意,因為redis太快了,每秒可以認證15w次密碼,簡單的密碼很容易被攻破,所以最好使用一個更複雜的密碼。  #requirepass "youzan"    #把危險的命令給修改成其他名稱。比如CONFIG命令可以重命名為一個很難被猜到的命令,這樣用戶不能使用,而內部工具還能接著使用。  # rename-command CONFIG b840fc02d524045429941cc15f59e41cb7be6c52  rename-command SHUTDOWN REDIS_SHUTDOWN  rename-command FLUSHDB REDIS_FLUSHDB  rename-command FLUSHALL REDIS_FLUSHALL  rename-command KEYS REDIS_KEYS  #rename-command CONFIG REDIS_CONFIG  #rename-command SLAVEOF REDIS_SLAVEOF  #設置成一個空的值,可以禁止一個命令  # rename-command CONFIG ""  ################################### LIMITS ####################################    # 設置能連上redis的最大客戶端連接數量。默認是10000個客戶端連接。由於redis不區分連接是客戶端連接還是內部打開文件或者和slave連接等,所以maxclients最小建議設置到32。如果超過了maxclients,redis會給新的連接發送』max number of clients reached』,並關閉連接。  # maxclients 10000    #redis配置的最大記憶體容量。當記憶體滿了,需要配合maxmemory-policy策略進行處理。注意slave的輸出緩衝區是不計算在maxmemory內的。所以為了防止主機記憶體使用完,建議設置的maxmemory需要更小一些。  maxmemory 512mb    #記憶體容量超過maxmemory後的處理策略。  #volatile-lru:利用LRU演算法移除設置過過期時間的key。  #volatile-random:隨機移除設置過過期時間的key。  #volatile-ttl:移除即將過期的key,根據最近過期時間來刪除(輔以TTL)  #allkeys-lru:利用LRU演算法移除任何key。  #allkeys-random:隨機移除任何key。  #noeviction:不移除任何key,只是返回一個寫錯誤。  #上面的這些驅逐策略,如果redis沒有合適的key驅逐,對於寫命令,還是會返回錯誤。redis將不再接收寫請求,只接收get請求。寫命令包括:set setnx setex append incr decr rpush lpush rpushx lpushx linsert lset rpoplpush sadd sinter sinterstore sunion sunionstore sdiff sdiffstore zadd zincrby zunionstore zinterstore hset hsetnx hmset hincrby incrby decrby getset mset msetnx exec sort。  maxmemory-policy allkeys-lru    #lru檢測的樣本數。使用lru或者ttl淘汰演算法,從需要淘汰的列表中隨機選擇sample個key,選出閑置時間最長的key移除。  # maxmemory-samples 5    ############################## APPEND ONLY MODE ###############################  #默認redis使用的是rdb方式持久化,這種方式在許多應用中已經足夠用了。但是redis如果中途宕機,會導致可能有幾分鐘的數據丟失,根據save來策略進行持久化,Append Only File是另一種持久化方式,可以提供更好的持久化特性。Redis會把每次寫入的數據在接收後都寫入 appendonly.aof 文件,每次啟動時Redis都會先把這個文件的數據讀入記憶體里,先忽略RDB文件。  appendonly no    #aof文件名  appendfilename "appendonly.aof"    #aof持久化策略的配置  #no表示不執行fsync,由作業系統保證數據同步到磁碟,速度最快。  #always表示每次寫入都執行fsync,以保證數據同步到磁碟。  #everysec表示每秒執行一次fsync,可能會導致丟失這1s數據。  appendfsync everysec    # 在aof重寫或者寫入rdb文件的時候,會執行大量IO,此時對於everysec和always的aof模式來說,執行fsync會造成阻塞過長時間,no-appendfsync-on-rewrite欄位設置為默認設置為no。如果對延遲要求很高的應用,這個欄位可以設置為yes,否則還是設置為no,這樣對持久化特性來說這是更安全的選擇。設置為yes表示rewrite期間對新寫操作不fsync,暫時存在記憶體中,等rewrite完成後再寫入,默認為no,建議yes。Linux的默認fsync策略是30秒。可能丟失30秒數據。  no-appendfsync-on-rewrite yes    #aof自動重寫配置。當目前aof文件大小超過上一次重寫的aof文件大小的百分之多少進行重寫,即當aof文件增長到一定大小的時候Redis能夠調用bgrewriteaof對日誌文件進行重寫。當前AOF文件大小是上次日誌重寫得到AOF文件大小的二倍(設置為100)時,自動啟動新的日誌重寫過程。  auto-aof-rewrite-percentage 100  #設置允許重寫的最小aof文件大小,避免了達到約定百分比但尺寸仍然很小的情況還要重寫  auto-aof-rewrite-min-size 64mb    #aof文件可能在尾部是不完整的,當redis啟動的時候,aof文件的數據被載入記憶體。重啟可能發生在redis所在的主機作業系統宕機後,尤其在ext4文件系統沒有加上data=ordered選項(redis宕機或者異常終止不會造成尾部不完整現象。)出現這種現象,可以選擇讓redis退出,或者導入儘可能多的數據。如果選擇的是yes,當截斷的aof文件被導入的時候,會自動發布一個log給客戶端然後load。如果是no,用戶必須手動redis-check-aof修復AOF文件才可以。  aof-load-truncated yes    ################################ LUA SCRIPTING ###############################  # 如果達到最大時間限制(毫秒),redis會記個log,然後返回error。當一個腳本超過了最大時限。只有SCRIPT KILL和SHUTDOWN NOSAVE可以用。第一個可以殺沒有調write命令的東西。要是已經調用了write,只能用第二個命令殺。  lua-time-limit 5000    ################################ REDIS CLUSTER ###############################  #集群開關,默認是不開啟集群模式。  #cluster-enabled yes    #集群配置文件的名稱,每個節點都有一個集群相關的配置文件,持久化保存集群的資訊。這個文件並不需要手動配置,這個配置文件有Redis生成並更新,每個Redis集群節點需要一個單獨的配置文件,請確保與實例運行的系統中配置文件名稱不衝突  #cluster-config-file nodes-7021.conf    #節點互連超時的閥值。集群節點超時毫秒數  #cluster-node-timeout 30000    #在進行故障轉移的時候,全部slave都會請求申請為master,但是有些slave可能與master斷開連接一段時間了,導致數據過於陳舊,這樣的slave不應該被提升為master。該參數就是用來判斷slave節點與master斷線的時間是否過長。判斷方法是:  #比較slave斷開連接的時間和(node-timeout * slave-validity-factor) + repl-ping-slave-period  #如果節點超時時間為三十秒, 並且slave-validity-factor為10,假設默認的repl-ping-slave-period是10秒,即如果超過310秒slave將不會嘗試進行故障轉移  #可能出現由於某主節點失聯卻沒有從節點能頂上的情況,從而導致集群不能正常工作,在這種情況下,只有等到原來的主節點重新回歸到集群,集群才恢復運作  #如果設置成0,則無論從節點與主節點失聯多久,從節點都會嘗試升級成主節  #cluster-slave-validity-factor 10    #master的slave數量大於該值,slave才能遷移到其他孤立master上,如這個參數若被設為2,那麼只有當一個主節點擁有2 個可工作的從節點時,它的一個從節點會嘗試遷移。  #主節點需要的最小從節點數,只有達到這個數,主節點失敗時,它從節點才會進行遷移。  # cluster-migration-barrier 1    #默認情況下,集群全部的slot有節點分配,集群狀態才為ok,才能提供服務。設置為no,可以在slot沒有全部分配的時候提供服務。不建議打開該配置,這樣會造成分區的時候,小分區的master一直在接受寫請求,而造成很長時間數據不一致。  #在部分key所在的節點不可用時,如果此參數設置為」yes」(默認值), 則整個集群停止接受操作;如果此參數設置為」no」,則集群依然為可達節點上的key提供讀操作  #cluster-require-full-coverage yes    ################################## LOG ###################################  ###slog log是用來記錄redis運行中執行比較慢的命令耗時。當命令的執行超過了指定時間,就記錄在slow log中,slog log保存在記憶體中,所以沒有IO操作。  #執行時間比slowlog-log-slower-than大的請求記錄到slowlog裡面,單位是微秒,所以1000000就是1秒。注意,負數時間會禁用慢查詢日誌,而0則會強制記錄所有命令。  slowlog-log-slower-than 10000    #慢查詢日誌長度。當一個新的命令被寫進日誌的時候,最老的那個記錄會被刪掉。這個長度沒有限制。只要有足夠的記憶體就行。你可以通過 SLOWLOG RESET 來釋放記憶體。  slowlog-max-len 128    ################################ LATENCY MONITOR ##############################  #延遲監控功能是用來監控redis中執行比較緩慢的一些操作,用LATENCY列印redis實例在跑命令時的耗時圖表。只記錄大於等於下邊設置的值的操作。0的話,就是關閉監視。默認延遲監控功能是關閉的,如果你需要打開,也可以通過CONFIG SET命令動態設置。  latency-monitor-threshold 0    ############################# EVENT NOTIFICATION ##############################  #鍵空間通知使得客戶端可以通過訂閱頻道或模式,來接收那些以某種方式改動了 Redis 數據集的事件。因為開啟鍵空間通知功能需要消耗一些 CPU ,所以在默認配置下,該功能處於關閉狀態。  #notify-keyspace-events 的參數可以是以下字元的任意組合,它指定了伺服器該發送哪些類型的通知:  ##K 鍵空間通知,所有通知以 __keyspace@__ 為前綴  ##E 鍵事件通知,所有通知以 __keyevent@__ 為前綴  ##g DEL 、 EXPIRE 、 RENAME 等類型無關的通用命令的通知  ##$ 字元串命令的通知  ##l 列表命令的通知  ##s 集合命令的通知  ##h 哈希命令的通知  ##z 有序集合命令的通知  ##x 過期事件:每當有過期鍵被刪除時發送  ##e 驅逐(evict)事件:每當有鍵因為 maxmemory 政策而被刪除時發送  ##A 參數 g$lshzxe 的別名  #輸入的參數中至少要有一個 K 或者 E,否則的話,不管其餘的參數是什麼,都不會有任何 通知被分發。詳細使用可以參考http://redis.io/topics/notifications    notify-keyspace-events "e"    ############################### ADVANCED CONFIG ###############################  #數據量小於等於hash-max-ziplist-entries的用ziplist,大於hash-max-ziplist-entries用hash  hash-max-ziplist-entries 512  #value大小小於等於hash-max-ziplist-value的用ziplist,大於hash-max-ziplist-value用hash。  hash-max-ziplist-value 64    #數據量小於等於list-max-ziplist-entries用ziplist,大於list-max-ziplist-entries用list。  list-max-ziplist-entries 512  #value大小小於等於list-max-ziplist-value的用ziplist,大於list-max-ziplist-value用list。  list-max-ziplist-value 64    #數據量小於等於set-max-intset-entries用iniset,大於set-max-intset-entries用set。  set-max-intset-entries 512    #數據量小於等於zset-max-ziplist-entries用ziplist,大於zset-max-ziplist-entries用zset。  zset-max-ziplist-entries 128  #value大小小於等於zset-max-ziplist-value用ziplist,大於zset-max-ziplist-value用zset。  zset-max-ziplist-value 64    #value大小小於等於hll-sparse-max-bytes使用稀疏數據結構(sparse),大於hll-sparse-max-bytes使用稠密的數據結構(dense)。一個比16000大的value是幾乎沒用的,建議的value大概為3000。如果對CPU要求不高,對空間要求較高的,建議設置到10000左右。  hll-sparse-max-bytes 3000    #Redis將在每100毫秒時使用1毫秒的CPU時間來對redis的hash表進行重新hash,可以降低記憶體的使用。當你的使用場景中,有非常嚴格的實時性需要,不能夠接受Redis時不時的對請求有2毫秒的延遲的話,把這項配置為no。如果沒有這麼嚴格的實時性要求,可以設置為yes,以便能夠儘可能快的釋放記憶體。  activerehashing yes    ##對客戶端輸出緩衝進行限制可以強迫那些不從伺服器讀取數據的客戶端斷開連接,用來強制關閉傳輸緩慢的客戶端。  #對於normal client,第一個0表示取消hard limit,第二個0和第三個0表示取消soft limit,normal client默認取消限制,因為如果沒有尋問,他們是不會接收數據的。  client-output-buffer-limit normal 0 0 0  #對於slave client和MONITER client,如果client-output-buffer一旦超過256mb,又或者超過64mb持續60秒,那麼伺服器就會立即斷開客戶端連接。  client-output-buffer-limit slave 256mb 64mb 60  #對於pubsub client,如果client-output-buffer一旦超過32mb,又或者超過8mb持續60秒,那麼伺服器就會立即斷開客戶端連接。  client-output-buffer-limit pubsub 32mb 8mb 60

sentinel_17021.conf 的內容 master 的名稱為youzan

port 17021  dir "/data/sentinel_17021"  logfile "/data/sentinel_17021/log/alert.log"  daemonize yes  protected-mode no  sentinel monitor youzan 10.9.34.172 7021 2  sentinel down-after-milliseconds youzan 5000  sentinel failover-timeout youzan 120000  #sentinel client-reconfig-script youzan /opt/bin/notify.py  rename-command SHUTDOWN REDIS_SHUTDOWN  #sentinel auth-pass youzan xxx

/etc/init.d/redis 的內容

#!/bin/sh  #  # Simple Redis init.d script conceived to work on Linux systems  # as it does use of the /proc filesystem.  REDISPORT=7021  EXEC=/usr/local/bin/redis-server  CLIEXEC=/usr/local/bin/redis-cli  PIDFILE=/data/redis_${REDISPORT}/run/redis.pid  CONF="/etc/redis/redis_${REDISPORT}.conf"  HOST=`hostname -i`  case "$1" in      start)          if [ -f $PIDFILE ]          then                  echo "$PIDFILE exists, process is already running or crashed"          else                  echo "Starting Redis server..."                  su redis -c "$EXEC $CONF"          fi          ;;      stop)          if [ ! -f $PIDFILE ]          then                  echo "$PIDFILE does not exist, process is not running"          else                  PID=$(cat $PIDFILE)                  echo "Stopping ..."                  $CLIEXEC -h $HOST -p $REDISPORT redis_shutdown                  while [ -x /proc/${PID} ]                  do                      echo "Waiting for Redis to shutdown ..."                      sleep 1                  done                  echo "Redis stopped"          fi          ;;      *)          echo "Please use start or stop as first argument"          ;;  esac

2.4 添加redis和 sentinel 帳號。

避免使用root帳號直接啟動 redis (存在相關安全隱患 利用Redis配置不當的漏洞對linux伺服器root提權體驗 )

useradd redis  mkdir -p /data/redis_7021/{data,log,run} ;  mkdir -p /data/sentinel_17021/{log,run} ;  chown -R redis.redis /data/redis_7021/ ;  chown -R redis.redis /etc/redis/ ;  useradd sentinel ;  chown -R sentinel.sentinel /data/sentinel_17021/ ;  chown -R sentinel.sentinel /etc/redis/sentinel_17021.conf ;  chmod 664 /etc/redis/sentinel_17021.conf

2.5 部署其他節點

上面的過程是配置redis主庫和其中的一個sentinel,複製上面的過程在10.9.43.207 重新執行一遍進行安裝redis和sentinel,不過需要注意的是 我們設置10.9.43.207為redis的slave節點 ,所以要在配置文件redis_7021.conf中加上 slaveof 10.9.34.172 7021 。對於安裝第三個sentinel節點10.9.34.252,只需選取上面步驟中的 sentinel相關的步驟就好。

2.6 啟動redis和sentinel

啟動redis

/etc/init.d/redis start
關閉redis
/etc/init.d/redis stop
su sentinel -c "redis-sentinel /etc/redis/sentinel_17021.conf"
啟動sentinel之後的日誌如下

32126:X 31 Jul 23:28:41.570 # Sentinel ID is b28ca1bb3d722e09d0de905caa380397455e8e3c  32126:X 31 Jul 23:28:41.570 # +monitor master youzan 10.9.34.172 7021 quorum 2  32126:X 31 Jul 23:28:41.571 * +slave slave 10.9.43.207:7021 10.9.43.207 7021 @ youzan 10.9.34.172 7021  32126:X 31 Jul 23:28:54.484 * +sentinel sentinel 5c44560584c3245590e86fa78880eacccdfe8318 10.9.34.252 17021 @ youzan 10.9.34.172 7021

2.7 進行故障演練

在主庫上進行

10.9.34.172:7021> debug sleep 30
OK
(30.01s)
觀察sentinel的log輸出

32126:X 01 Aug 09:24:12.752 # +sdown master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:12.828 # +odown master youzan 10.9.34.172 7021 #quorum 2/2  32126:X 01 Aug 09:24:12.828 # +new-epoch 1  32126:X 01 Aug 09:24:12.828 # +try-failover master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:12.838 # +vote-for-leader b28ca1bb3d722e09d0de905caa380397455e8e3c 1  32126:X 01 Aug 09:24:12.842 # 5c44560584c3245590e86fa78880eacccdfe8318 voted for b28ca1bb3d722e09d0de905caa380397455e8e3c 1  32126:X 01 Aug 09:24:12.928 # +elected-leader master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:12.928 # +failover-state-select-slave master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:12.995 # +selected-slave slave 10.9.43.207:7021 10.9.43.207 7021 @ youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:12.995 * +failover-state-send-slaveof-noone slave 10.9.43.207:7021 10.9.43.207 7021 @ youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:13.047 * +failover-state-wait-promotion slave 10.9.43.207:7021 10.9.43.207 7021 @ youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:13.893 # +promoted-slave slave 10.9.43.207:7021 10.9.43.207 7021 @ youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:13.893 # +failover-state-reconf-slaves master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:13.942 # +failover-end master youzan 10.9.34.172 7021  32126:X 01 Aug 09:24:13.942 # +switch-master youzan 10.9.34.172 7021 10.9.43.207 7021  32126:X 01 Aug 09:24:13.943 * +slave slave 10.9.34.172:7021 10.9.34.172 7021 @ youzan 10.9.43.207 7021  32126:X 01 Aug 09:24:18.986 # +sdown slave 10.9.34.172:7021 10.9.34.172 7021 @ youzan 10.9.43.207 7021  32126:X 01 Aug 09:24:37.041 # -sdown slave 10.9.34.172:7021 10.9.34.172 7021 @ youzan 10.9.43.207 7021  32126:X 01 Aug 09:24:47.041 * +convert-to-slave slave 10.9.34.172:7021 10.9.34.172 7021 @ youzan 10.9.43.207 7021

觀察sentinel 的配置文件以及被修改重寫.

三 總結

本文算是一篇入門級別的how to文檔,介紹如何安裝部署redis sentinel 高可用架構,內容比較淺顯,需要注意的是運維一套資料庫存儲系統肯定不會這麼簡單,還要涉及到相關進程,日誌,性能監控等等,本文的案例距離生產實踐還有一大段路要走,繼續學習。

四 參考文章

[1] Redis之Sentinel高可用安裝部署
[2] Redis Sentinel機制與用法(一)
[3] Redis Sentinel機制與用法(二)


本公眾號長期關注於資料庫技術以及性能優化,故障案例分析,資料庫運維技術知識分享,個人成長和自我管理等主題,歡迎掃碼關注。