從程式設計師到大型分散式架構師,自己到底位於哪裡(二)
寫這篇文章為了更清楚自己技術能力,同時分享給大夥,看看自己技術水平位於哪裡。
個人能力有限,基於我所理解的知識來講解一下:從程式設計師到大型分散式架構師,我們自己到底位於哪裡。
描述不當之處還請各路大佬點明,老弟也好更上一層樓!!!
本人就以之前畫的微服務系統架構圖來逐一講解。
上一篇講述了:Java程式設計師刻苦修鍊 鍛造基礎
這一篇接著講述……
1.分散式服務治理方案
1.1.簡述幾個名詞
什麼是服務治理?
反過來讀一下:治理服務。分散式服務治理方案就是通過什麼方案來治理分散式的服務。強調的還是「服務」,所以治理的前提是有錯綜複雜的業務服務,才需要整這麼一套方案去解決這問題。
分散式架構是什麼?
一整套的分散式架構的搭建就像建造一個自動化生產車間。新增的「業務系統N」部署到這個大家庭便會擁有架構中一整套的能力(服務治理能力、自動化能力、大數據能力等等)。
應用上雲和分散式架構
在這幾年經常會聽到或談到「上雲」這個詞語,「應用上雲」和「分散式架構」這兩者乍眼一看兩者沒啥關係,其實關係大得很。就以阿里云為例:你將新增的「業務系統N」部署到阿里雲,需要什麼能力的服務是不是用錢買就行啦?或者直接搞個「行業解決方案」。這種第三方雲又稱為公有雲;有「公」就有「私」,私有雲就是企業自個獨有的雲;兩者一混就變成了混合雲。雲可以看作是完整的一套分散式架構+基礎設施。怎麼上雲,先申請資源(軟體資源、硬體資源和網路資源),再將業務服務部署到這分散式架構中,從而實現所有資源可插拔和服務的統一管理,這就是為什麼現在都喜歡搞「上雲」的原因之一。
本文是為讀者做定位和後續學習有目標,在此不展開太多。
1.2.技術實現方案
常用的兩種分散式服務治理方案:RESTful 和 RPC 分散式服務治理方案。
兩者最本質的區別:
RESTful 強調一切都看作資源,對資源進行操作;
RPC 是遠程過程調用,強調的是客戶端和服務端的交互。
RESTful分散式服務治理技術方案
技術實現方案:SpringCloud
RPC分散式服務治理技術方案
技術實現方案:Dubbo + Zookeeper
兩種方案中都沒有提供一套完整的服務治理技術實現,還需加入鏈路追蹤技術、監控告警系統、日誌分析系統等。
鏈路追蹤系統
在分散式環境中一個業務處理涉及多個服務間的調用,傳統方式通過系統日誌很難做到故障問題快速定位,而通過鏈路追蹤可以實現故障快速定位。鏈路追蹤系統除了故障快速定位功能,還有可視化(如性能指標)、依賴優化(梳理服務依賴關係以及優化)、數據分析(如用戶的行為路徑,匯總分析應用在很多業務場景)。
監控告警系統
一般監控有流量監控、異常監控、資源使用率、請求延遲等。當監控的數據超過指定範圍,就會通過郵件或電話進行告警通知,也可以在可視化平台查看監控數據,收到告警通知的人員便會去處理相應問題。
日誌分析系統
日誌分析是運維工程師解決系統故障,發現問題的主要手段。
服務治理技術包含在紅色框中
2.DevOps(開發運維一體化)
為了高可用,將業務服務集群化是一件很正常的事,但每次都要改動都要部署到不同的幾台伺服器,做著重複的工作而且很有可能出錯,一次改動一天部署完成算是很順利的事了。是不是很想要有自動化部署這種東西呢?其實自動化在很多行業早就有了,現在很多行業都已邁入智慧化時代了。
DevOps開發運維一體化並不是讓開發去做運維,而是使開發和運維通過一些機制有機結合、高效統一,成為一個整體,從而消除開發團隊和運維團隊之間的隔閡,有效提升應用服務的研發和運維運營效率。
關鍵技術
-
kubernetes(自動化運維平台)– 平台
-
Jenkins Pipeline(流水線) — 流水線
-
docker(容器) — 包裹
主要涉及兩種角色:開發人員(developer)和 運維人員(Operation)
&
兩者的隔閡其實是通過容器化部署方式來解決,運維人員只需要知道容器鏡像怎麼部署即可,不需要知道其中的細節。
持續集成(CI):從程式設計師提交程式碼到自動打包生成docker鏡像,並部署到指定測試環境
持續交付和部署(CD):測試通過後,運維人員將docker鏡像部署到生成環境
整個流程都可以在k8s平台中看到,並且支援項目部署的回滾操作,更多細節就不一一展開。
3.大數據接入
經常會聽到大數據「殺熟」,同一個平台殺熟就算了,跨各大平台殺熟就很讓人惱火。比如:我在淘寶或京東搜索了下運動器材,然後在各種平台都會收到各式各樣的運動器材推薦。這種智慧推送又被稱為智障推送,比如:我看了某種商品的某種規格後,再次搜索商品就都是這種規格,其實這不是我想要的結果。大數據是把雙刃劍,搞得好智慧,搞不好智障,甚至觸犯法律條款。
分點簡述
-
大數據平台:Hadoop
-
數據來源:資料庫,快取中間件,文件存儲,數據倉庫等等。
-
數據採集方式:實時採集 和 離線採集
-
數據採集技術:kafka,flume,sqoop 等等,不同的數據來源使用不同的採集中間件技術
-
數據存儲技術:Hbase,HDFS 等等
-
數據處理方式:實時處理 和 離線批量處理,分別對應不同的技術棧
-
數據服務:提供服務實現價值,如:精準營銷,瀏覽,分析檢索,下載等等
-
平台管理技術:Apache Ambari(供應、管理、監控等)和Zookeeper(平台配置與調度)
4.其他
4.1.內網DNS
優點:方便記憶和服務遷移IP更換隻需要修改DNS即可;
缺點:DNS服務可能成為性能瓶頸和影響可用性。
4.2.網路區域和出入網控制
業務服務都部署在內網環境,主要原因是安全問題和IP資源問題。
內網環境還可以拆分成多個區域:DMZ區、業務區。DMZ 稱為隔離區,對外對內都有防火牆隔離,隔離外網和內網的一個區域。常用於部署以外網對接的系統服務。內網業務區,顧名思義是部署業務相關的服務。
統一入網:服務部署在內網環境,每個對外提供服務的系統都需要有個入口,為了網路安全和更好管理便有了統一入網,需要提供互聯網服務的系統申請入網資源即可。
統一出網:對於內網系統需要訪問互聯網資源時,則通過統一出網來控制。
4.3.安全技術
網路安全
-
內網部署,內網專有網路
-
統一出入網
-
應用防火牆WAF:免受各種常見攻擊(XSS 攻擊、注入攻擊、DDOS攻擊等)
-
使用HTTPS
-
運維人員必須通過內網堡壘機來訪問內網伺服器
等等
編碼安全
-
瀏覽器Cookie 加密與過期
-
服務間通訊加密
-
登錄防爆力影像驗證碼等的多種驗證方式(如:郵件或簡訊驗證碼的一次一密)
-
數據防爬蟲機器人驗證
-
重要資訊數據脫敏(如:手機號,姓名,證件號,卡號等)
等等
伺服器安全
-
通過滲透測試確認資料庫、應用等安全性,常用的技術:nmap、burp suite、sqlmap等。
-
容器部署的安全性
-
常用中間件安全性
等等多種安全技術,從程式碼到整個平台所涉及之處都要考慮安全問題。
4.6.其他嘮嗑
隨著業務的發展,會持續出現技術問題,業務問題,開發問題,運維問題,業務響應速度等等。避免重複造輪子,需要對通用能力抽離;不同業務不斷發展形成不同的軟體平台,平台間職能邊界劃分問題和數據孤島問題,需要引入領域驅動設計思想和中台思想來解決相應問題,但項目一開始還是建議使用面向對象軟體設計方法,不要看到到處說DDD就湊熱鬧,領域驅動設計在2014年都出書了也不是什麼新鮮事物,過度設計還不如層次分明更利於開發維護。
閱讀上一篇:從程式設計師到大型分散式架構師,自己到底位於哪裡(一)
轉載指明出處!!!