CPU爆滿後的無助感
- 2019 年 11 月 2 日
- 筆記
告警
晚七點剛好上地鐵,握在手裡的手機震動了好幾下,根據震動這幾下的手感已經判斷出這是釘釘在告警了,十有八九就是線上的問題,通過Zabbix監控的一台線上服務器已經五分鐘不可達,這應該不會是網絡網絡問題了,如果是網絡問題,其他線上機器應該都會不可達。沒背電腦,只能幹着急,後來大概看了一下雲平台是因為CPU過高導致的。過了大概半個小時,有自動恢復了。
其實這個問題隱隱約約出現好幾次了,只是沒去重視,今天一來到公司就開始打開xshell,啪啪啪幾下登錄上去之後,袖子一卷,準備好好排查一下,看看到底是何方妖怪讓我的CPU飆升還機器都連不上去。
排查
獃獃的看着這個黑色的框框,沒錯,我獃獃的看着他看了一天了。因為我完全沒有頭緒,沒有思路,從哪裡下手?按照平時的套路,看日誌,打開幾個相關的日誌,眼睛都瞄沒了,也沒找到什麼有用的東西。網上搜索一下,看看有么有什麼好的辦法排查,打開Google,打開baidu,千篇一律,簡直就是複製粘貼,基本上使用top找到CPU佔用高的進程,然後看進程的日誌。但是我現在已經不是第一現場了。回想起了以前面試的時候面試過經常會問當你的機器CPU突然很高時,你怎麼辦?頭腦里也一次又一次的出現平時說要好好看看linux系統的書,沒看,真後悔,等這次後我一定要把這方面的知識好好學習學習,系統的學習。可是等今晚回去睡一覺,明早一醒來,還是原樣。
反思
日復一日,年復一年,畢業已三年半,運維職業生涯將近四年。三天打魚,兩天晒網,今天看Docker,明天看ELK,樣樣都沒學通。基礎底層的東西還是一竅不通。有時候能明顯的感覺到自己腦袋裡那點知識是少之又少。現在做運維感覺都是很先進的東西,AIOps,DevOps,這些東西不學也不行。但我覺得不管什麼Ops,基礎還是很重要。還是打算在跟上時代的腳步時,想往系統運維這一塊深入發展。
單從Zabbix的這幾個CPU監控項來說,每個監控項的意義是什麼,估計會難道一大批跟我一樣的工程師們。
system.cpu.switches system.cpu.util[,guest_nice] system.cpu.util[,guest] system.cpu.util[,idle] system.cpu.util[,interrupt] system.cpu.util[,iowait] system.cpu.util[,nice] system.cpu.util[,softirq] system.cpu.util[,steal] system.cpu.util[,system] system.cpu.util[,user] system.cpu.intr system.cpu.load[percpu,avg1]
不知不覺天已黑,又到了下班,心裏多了幾分沉重感。