SkyWalking 搭建及簡單使用(Linux)
1.需求
公司項目採用微服務的架構,服務很多,人工監控是不可能的,項目的訪問量很大,想通過日誌查找某個方法中性能的問題也是非常困難的。但是系統的性能問題是不能忽視的。系統性能檢測的問題如鯁在喉,經過長時間的查找資料,功夫不負有心人,終於發現幾個比較好的開源的APM(Application Performance Management)檢測工具。
2.常見apm參考對比及工具選型
- SkyWalking:中國人吳晟(華為)開源的一款分散式追蹤,分析,告警的工具,現在是Apache旗下開源項目,對雲原生支援,目前增長勢頭強勁,社區活躍,中文文檔沒有語言障礙。
- Zipkin:Twitter公司開源的一個分散式追蹤工具,被Spring Cloud Sleuth集成,使用廣泛而穩定,需要在應用程式中埋點,對程式碼侵入性強
- Pinpoint:一個韓國團隊開源的產品,探針收集的數據粒度非常細,但性能損耗大,因其出現的時間較長,完成度很高。
- Cat:美團大眾點評開源的一款分散式鏈路追蹤工具。需要在應用程式中埋點,對程式碼侵入性強。
項目不想侵入其他的程式碼,工具盡量損耗性能低,工具的社區活越,文檔完善也是考慮的必要條件,經過以下表格部分參數對比,相對來說,SkyWalking更佔優,因此團隊採用SkyWalking作為APM工具。
工具名稱 | 程式碼入侵方式 | 性能 | ui | 使用人數 | 粒度 | 告警 | 依賴分析 | traceID查詢 |
SkyWalking | 無侵入 | 高 | 豐富 | 多 | 方法級 | 有 | 有 | 有 |
Pinpoint | 無侵入 | 低 | 豐富 | 多 | 方法級 | 有 | 有 | 有 |
Zipkin | 侵入低 | 中 | 一般 | 多 | 介面級 | 無 | 有 | 有 |
Cat | 侵入高 | 中 | 豐富 | 較多 | 程式碼級 | 有 | 無 | 無 |
3.工具簡介
官方有兩句話介紹SkyWalking:
SkyWalking是分散式系統的應用程式性能監視工具,專為微服務、雲原生架構和基於容器(Docker、K8S、Mesos)架構而設計
SkyWalking是觀察性分析平台和應用性能管理系統。提供分散式追蹤、服務網格遙測分析、度量聚合和可視化一體化解決方案
SkyWalking 整體架構
整個架構,分成上、下、左、右四部分:
考慮到讓描述更簡單,我們捨棄掉 Metric 指標相關,而著重在 Tracing 鏈路相關功能。
- 上部分 Agent :負責從應用中,收集鏈路資訊,發送給 SkyWalking OAP 伺服器。目前支援 SkyWalking、Zikpin、Jaeger 等提供的 Tracing 數據資訊。而我們目前採用的是,SkyWalking Agent 收集 SkyWalking Tracing 數據,傳遞給伺服器。
- 下部分 SkyWalking OAP :負責接收 Agent 發送的 Tracing 數據資訊,然後進行分析(Analysis Core) ,存儲到外部存儲器( Storage ),最終提供查詢( Query )功能。
- 右部分 Storage :Tracing 數據存儲。目前支援 ES、MySQL、Sharding Sphere、TiDB、H2 多種存儲器。而我們目前採用的是 ES ,主要考慮是 SkyWalking 開發團隊自己的生產環境採用 ES 為主。
- 左部分 SkyWalking UI :負責提供控台,查看鏈路等等。
4.搭建步驟單機版
因為對工具可用性要求不高,工具掛掉不會影響系統,所以採用單機版。
- 第一步,搭建一個 Elasticsearch 服務。
- 第二步,下載 SkyWalking 軟體包。
- 第三步,搭建一個 SkyWalking OAP 服務。
- 第四步,搭建一個 SkyWalking UI 服務。
- 第五步,啟動系統服務,並配置 SkyWalking Agent。
4.1 Elasticsearch 搭建
1.下載elasticsearch-7.2.0,下載地址://www.elastic.co/cn/downloads/elasticsearch
2.上傳下載的壓縮包到linux伺服器,解壓文件
tar -zxvf elasticsearch-7.2.0-linux-x86_64.tar.gz //解壓壓縮包 cd elasticsearch-7.2.0 //進入目錄 mkdir data //創建data文件夾,保存數據
3.修改Elasticsearch配置:config/elasticsearch.yml
4.嘗試啟動Elasticsearch。
5.啟動失敗報錯:通過日誌可以發現,es不允許linux通過root用戶啟動,原因是出於系統安全考慮設置的條件。由於Elasticsearch可以接收用戶輸入的腳本並且執行,為了系統安全考慮,直接使用root許可權會帶來很大風險,所以我們創建一個elsearch用戶
6.創建Elasticsearch啟動用戶,並設置許可權等
7.使用elsearch用戶,再次嘗試啟動
8.啟動失敗,有兩個錯誤,是因為有兩個參數的值太小
問題解決辦法
9.使用elsearch用戶,再次嘗試啟動(Elasticsearch默認記憶體是1G,因為我的伺服器記憶體是足夠的,沒有修改配置)
10.查看是否啟動成功:訪問ip:9200,出現以下資訊即為啟動成功
4.2 下載 SkyWalking 軟體包
1.下載SkyWalking官方包,下載地址: //skywalking.apache.org/downloads/ ,我們下載作業系統對應的發布版。這裡,我們選擇apache-skywalking-apm-es7-8.0.0.tar.gz版本想使用 Elasticsearch 7.X 版本作為存儲。
2.上傳下載的壓縮包到linux伺服器,解壓文件
4.3 SkyWalking OAP 搭建
1.修改 OAP 配置文件 config/application.yml
2.啟動OAP
4.4 SkyWalking UI 搭建
1.由於SkyWalking UI的默認地址是8080,與很多中間件有衝突,可以修改一下
2.啟動 SkyWalking UI 服務
4.5 SkyWalking Agent
1.修改探針默認配置 agent/config/agent.config
取樣率修改
agent.sample_n_per_3_secs配置說明:
在訪問量較少時,鏈路全量收集不會對系統帶來太大負擔,能夠完整的觀測到系統的運行狀況。但是在訪問量較大時,全量的鏈路收集,對鏈路收集的客戶端(agent探針)、服務端(SkyWalking OAP)、存儲器(例如說 Elastcsearch)都會帶來較大的性能開銷,甚至會影響應用的正常運行。在訪問量級較大的情況下,往往會選擇抽樣取樣,只收集部分鏈路資訊。SkyWalking Agent 在 agent/config/agent.config 配置文件中,定義了 agent.sample_n_per_3_secs 配置項,設置每 3 秒可收集的鏈路數據的數量。
2.放置探針:我們需要將 agent
目錄,拷貝到 Java 應用所在的伺服器上。這樣,Java 應用才可以配置使用該 SkyWalking Agent。通過設置啟動參數的方式檢測系統,沒有程式碼侵入。
5.效果展示
儀錶盤:可以查看服務性能,介面總體耗時,資料庫sql執行耗時排行等等
拓撲圖:可以查看已經檢測的服務及服務之間的關係
追蹤:可以看到服務調用的路徑
追蹤:可以看到整個鏈路中每一個步驟的耗時情況,其中可以看到方法中各個sql執行耗時及對應的sql,可以有針對的優化sql
剛接觸SkyWalking還有很多的功能細節需要再深入了解,如果發現有問題,歡迎大家指教。