《大型網站技術架構核心原理與案例分析》讀書筆記(二)

2.1 網站架構模式

為了解決大型網站面臨的高並發訪問,海量數據處理,高可靠運行等一系列問題與挑戰,大型互聯網公司在實踐中提出了許多解決方案,以實現網站高性能,高可用,易伸縮,可擴展,安全等各種技術架構目標。這些解決方案又被更多網站重複使用,從而逐漸形成大型網站架構模式。

2.1.1 分層

分層是企業應用系統中最常見的一種架構模式,將系統在橫向維度上切分成幾個部分,每個部分負責一部分相對比較簡單的職責,然後通過上層對下層的依賴和調用組成一個完整的系統。

分層結構在電腦世界中無處不在,網路的7層通訊協議是一種分層結構;電腦硬體、作業系統、應用軟體也可以看作是一種分層結構。在大型網站架構中也採用分層結構,將網站軟體系統分為應用層、服務層、數據層,如圖表2.1所示。

分層的優點:更好的將一個龐大的軟體系統切分成不同的部分,便於分工合作開發和維護;各層之間具有一定的獨立性,只有維持調用介面不變,各層可以根據具體問題獨立演化發展而不需要其他層必須作出相應的調整。

遵循原則:必須合理規劃層次邊界和介面,在開發過程中,嚴格遵循分層架構的約束,禁止跨層次調用及逆向調用。

分層架構師邏輯上的,在物理部署上,三層結構可以部署在同一個物理機器上,但隨著網站業務的發展,必然需要對已經分層的模組分離部署,即三層結構分別部署在不同的伺服器上,使網站擁有更多的計算資源以應對越來越多的用戶訪問。

2.1.2 分割

如果說分層是將軟體在橫向方面進行切分,那麼分割就是在縱向方面對軟體進行切分。

網站越大,功能越複雜,服務和數據處理的種類也越多,講這些不同的功能和服務分割開來,包裝成高內聚低耦合的模組單元,一方面有助於軟體的開發和維護;另一方面,便於不同模組的分散式部署,提高網站的並發處理能力和功能擴展能力。

大型網站的分割力度可能會很小。比如在應用層,將不同業務進行分割,例如將購物,論壇,搜索,廣告分割成不同的應用,由獨立的團隊負責,部署在不同的伺服器上。

2.1.3 分散式

對於大型網站,分層和分割的一個主要目的是為了切分後的模組便於分散式部署,即將不同模組部署在不同的伺服器上,通過遠程調用協同工作。分散式意味著可以使用更多的電腦完成同樣的功能,電腦越多,CPU、記憶體、存儲資源也就越多,能夠處理的並發訪問和數據量就越大,進而能夠為更多的用戶提供服務。

常用的分散式方案有以下幾種。

分散式應用和服務

將分層 分割後的應用和服務模組分散式部署,除了可以改善網站性能和並發性、加快開發和發布速度、減少資料庫連接資源消耗外;還可以使不同應用復用共同的服務,便於業務功能拓展。

分散式靜態資源

網站的靜態資源如JS,CSS,Logo圖片等資源獨立分散式部署,並採用獨立的域名,即人們常說的動靜分離。靜態資源分散式部署可以減輕應用伺服器的負載壓力;通過使用獨立域名加快瀏覽器並發載入的速度;由負責用戶體驗的團隊進行開發維護有利於網站分工合作,使不同技術工種術業有專攻。

分散式數據存儲

大型網站需要處理以P為單位的海量數據,單台電腦無法提供如此大的存儲空間,這些數據需要分散式存儲。除了對傳統的關係資料庫進行分散式部署外,為網站應用而生的各種NoSQL產品幾乎都是分散式的。

分散式計算

嚴格說來,應用、服務、實時數據處理都是計算,網站除了要處理這些在線業務,還有很大一部分用戶沒有直觀感受的後台業務要處理,包括搜索引擎的索引構建、數據倉庫的數據分析統計等。這些業務的計算規模非常龐大,目前網站普遍使用Hadoop及其MapReduce分散式計算框架進行此類批處理計算,其特點是移動計算和不是移動數據,將計算程式分發到數據所在位置以加速計算和分散式計算。

此外,還有可以支援現場服務期配置實時更新的分散式配置;分散式環境下實現並發和協同的分散式鎖;支援雲存儲的分散式文件系統等。

2.1.4 集群

使用分散式雖然已經將分層和分割後的模組獨立部署,但是對於用戶訪問集中地模組,還需要將獨立部署的伺服器集群化,即多台伺服器部署相同應用構成一個集群,通過負載均衡設備共同對外提供服務。

因為伺服器集群有更多伺服器提供相同的服務,因此可以提供更好的並發特性,當有更多用戶訪問的時候,只需要想集群中加入新的及其即可。同事因為一個應用由多台伺服器提供,當某台伺服器發生故障時,負載均衡設備或者系統的失效轉移機制會將請求轉發到集群中其他伺服器上,是伺服器故障不影響用戶使用。所以在網站應用中,及時是訪問量很小的分散式應用和服務,也至少要部署兩台伺服器構成一個小的集群,目的就是提高系統的可用性。

2.1.5 快取

快取就是將數據存放在距離計算最近的位置以加快處理速度。快取是改啥軟體性能的第一手段,現在CPU越來越快的一個重要因素就是使用了更多的快取,在複雜的軟體設計中,快取幾乎是無處不在。大型網站架構設計在很多方面都使用了快取設計。

CDN

內容分發網路,部署在距離終端用戶最近的網路服務商,用戶的網路請求總是先到達他的網路服務商里,在這裡快取網站的一些靜態資源,可以就近以最快速度返回給用戶,如影片網站和門戶網站會將用戶訪問量大的熱點內容快取在CDN。

反向代理

反向代理數網站前端架構的一部分,部署在網站的前端,當用戶請求到達網站的數據中心時,最先訪問到的就是反向代理伺服器,這裡快取網站的靜態資源,無需將請求繼續轉發給應用伺服器就能返回給用戶。

本地快取

在應用伺服器本地快取著熱點數據,應用程式可以再本機記憶體中直接訪問數據,而無需訪問資料庫。

分散式快取

大型網站的數據量非常龐大,即使只快取一小部分,需要的記憶體空間也不是單機能承受的,所以除了本地快取,還需要分散式快取,將數據快取在一個專門的分散式快取集群中,應用程式通過網路通訊訪問快取數據。

2.1.6 非同步

非同步是降低軟體耦合性的一個手段。業務之間傳遞消息不是同步調用,而是將一個業務操作分成多個階段,每個階段之間通過共享數據的方式非同步執行進行協作。

在單一伺服器內部可通過多執行緒共享記憶體隊列的方式實現非同步,處在業務操作前面的執行緒將輸出寫入到隊列,後面的執行緒從隊列中讀取數據進行處理;在分散式系統中,多個伺服器集群通過分散式消息隊列實現非同步,分散式消息隊列可以看作記憶體隊列的分散式部署。

非同步架構是典型的生產者消費者模式,兩者不存在直接調用,只要保持數據結構不變,彼此功能實現可以隨意變化而不互相影響,這對網站擴展新功能非常便利。除此之外,使用非同步消息隊列還有如下的特性。

提高系統可用性

消費者伺服器發生故障,數據會在消息隊列伺服器中存儲堆積,生產者伺服器可以繼續處理業務請求,系統整體表現無故障。消費者伺服器恢復正常後,繼續處理消息隊列中的數據。

加快網站響應速度

處在業務處理前端的生產者伺服器在處理完業務請求後,將數據寫入消息隊列,不需要等待消費者伺服器處理就可以返回,響應延遲減少。

消除並發訪問高峰

用戶訪問網站是隨機的,存在訪問高峰和低谷,即使網站按照一般訪問高峰進行規劃和部署,也依然會出現突發事件,比如購物網站的促銷互動,微博上的熱點事件,都會造成網站並發訪問突然增大,這可能會造成整個網站負載過重,響應延遲,嚴重時甚至會出現服務宕機的情況。使用消息隊列將突然增加的訪問請求數據放入消息隊列中,等待消費者伺服器依次處理,就不會對整個網站負載造成太大的壓力。

但需要注意的是,使用非同步方式處理業務可能會對用戶體驗,業務流程造成影響,需要網站產品設計方面的支援。

2.1.7 冗餘

網站需要7*24小時連續運行,為了保證在伺服器宕機的情況下依然可以繼續提供服務,不丟失數據,就需要一定程度的伺服器冗餘運行,數據冗餘備份,這樣當某台伺服器宕機時,可以將其上的服務和數據訪問轉移到其他機器上。

訪問和負載很小的服務也必須部署至少兩台伺服器構成的一個集群,其目的就是通過冗餘實現服務高可用。資料庫除了定期備份,存檔保存,實現冷備份外,為了保證在線業務高可用,還需要對資料庫進行主從分離,實時同步實現熱備份。

為了抵禦地震,海嘯等不可抗力導致的網站完全癱瘓,某些大型網站會對整個數據中心進行備份,全球範圍內部署災備數據中心。網站程式和數據實時同步到多個災備數據中心。

2.1.8 自動化

在無人值守的情況下網站可以正常運行,一切都可以自動化是網站的理想狀態。目前大型網站的自動化架構設計主要集中在發布運維方面。

發布對網站是頭等大事,需要網站故障出在發布緩解,網站工程師經常加班也是因為發布不順利,通過減少認為干預,使發布過程自動化,自動化程式碼管理,自動化測試,自動化安全檢測,自動化部署,將工程程式碼自動部署到線上生產環境。

發布之後,線上生產環境也需要進行自動化處理。主要為自動化監控,自動化報警,自動化失效轉移,自動化失效恢復,自動化降級,自動化分配資源等手段。

2.1.9 安全

互聯網的開放特性使得從誕生起就面對巨大的安全挑戰,網站在安全架構方面也積累了許多模式:通過密碼和手機校驗碼進行身份測試;登錄,交易等操作需要對網路通訊進行加密,網站伺服器上存儲的敏感數如用戶資訊等也進行加密處理;為了防止機器人程式濫用網路資源攻擊網站,網站使用驗證碼進行識別;對於常見的永華攻擊網站的XSS攻擊,SQL注入,進行編碼轉換等相應處理;對於垃圾資訊,敏感資訊進行過濾;對交易轉賬等重要操作根據交易模式和交易資訊進行風險控制。

2.2 小結

通過本章的學習,了解到了網站的主要架構模式。許多希望通過模式一勞永逸的解決自己的問題。正確的使用模式可以更好的利用業界和前人的思想和實踐,用更少的實踐開發出更好的系統,使設計者的水平也達到更高的境界。但是模式受其使用場景的限制,對系統的要求和約束也很多,不恰當的使用模式只會畫虎不成反類犬,不但沒有解決原來的老問題,反而帶來了更棘手的問題。

山寨與創新最大的區別不在於是否抄襲,是否模仿,而在於對問題和需求是否真正理解與把握。