進程無故消失的破案歷程

  • 2020 年 3 月 12 日
  • 筆記

概述

前段時間公司有個系統的進程老是無故退出,在客戶那邊好好的,在家裡伺服器上老是出現,而且出現的時間也沒啥規律,當然最終查出來還是有規律的,不過這個規律比較特別。大家看了後面的內容之後就明白了,真的很特殊!

初步分析 進程Crash?

當同事找到我的時候,我第一反應是是不是進程Crash了,如果是crash,那通常情況下會有crash的日誌,檢查了一遍,什麼日誌都沒有留下,當然有時候Crash了,JVM也確實也不會留下Crash日誌,不過這個特別罕見了,絕大部分是人為操作了。

被OS Kill?

既然不是Crash,那是不是系統存在記憶體泄露,被OS Kill了,不過很快通過dmesg也排除了,因為沒有看到任何kill的跡象。

System.exit?

排除掉以上兩個因素之後,接著馬上就懷疑是否有什麼程式碼執行過System.exit,於是重新編譯了一把JDK,在System的exit方法處列印了些日誌,於是坐等奇蹟的發生。

令人興奮的是,進程真的消失了,可是令人遺憾的是,我們埋點的日誌並沒有出現。這讓我再次陷入沉思。

回歸源碼

從日誌看確實是調用了ShutdownHook
image.png

於是找到addShutdownHook源碼的位置
image.png

再次翻了一下JDK的源碼,除了正常退出,System.exit等之外還有哪些情況會調用這個Shutdown的Hook,於是將埋點埋到了Shutdown.runHooks方法里。
image.png

繼續等待事情再次發生,果然沒多久,當天下午又發生了,列印了如下日誌
image.png

也就是說當時是收到了一個SIGHUP的訊號,這個訊號最終會讓進程退出,JVM對這個訊號確實是沒有特殊處理的,因此沒有我們看到的Crash日誌。

那接下來就是要找到為什麼會收到這個訊號了,這個訊號又是誰發出的。

找出訊號源

SIGHUP這個訊號,最主要發生的場景是Shell終端關閉一個Session的時候會對該Session關聯的進程發送一個SIGHUP訊號,這個訊號默認是會退出進程的。為此我還特地下載了ITerm2(我和同事都是mac,用的iTerm2的終端)的源碼,還真找到了幾個發送SIGHUP訊號的程式碼
image.png

看名字PTYTask就能猜到了,這應該是一個seesion任務,於是進到程式碼里看到主要是有兩個方法有發送SIGHUP訊號給子進程,分別是dealloc和stop,其中stop會通過sendSignal函數給子進程發送SIGHUP訊號。
image.png
對於我這種比較喜歡自虐的人,一般會想怎麼就確定這個就是我要找的程式碼,之前從沒有寫過Object-C的程式碼,想著是否有個類似java的jmap的工具可以讓我看記憶體里的對象的情況,然而臨時沒找到,不過偶然發現mac自帶的Activity工具就能看到一些跡象,於是在Activity里找到了iTerm2進程,然後對其記憶體數據進行了取樣,看能否抓到類似PTYTask. dealloc或者stop的調用棧,可是比較難模擬,因為存在時間差,點擊取樣的時候,很快就結束了,我還沒來得及關閉session。在看取樣報告的時候偶然看到了/usr/bin/sample的命令,原來Activity是採用這個命令進行取樣的,於是摸索了一把,真能搞起來,取樣的時間可以自定義,間隔是1ms一次,這樣可以讓我有充足的時間來操作了,於是在取樣開啟之後,不斷地開一個session,起一個進程,然後close,重複做了好幾次,結束取樣之後看取樣的輸出,還真的就抓到了PTYTask.stop的調用棧
image.png

這也就驗證了我close session的時候確實會給對應的子進程發送SIGHUP的訊號。

那到此為止我們可以確認的是

  • 進程退出是因為收到了訊號SIGHUP
  • 而SIGHUP的發生是因為終端Session Close
    那到底是不是這種情況呢?

重新復盤問題現場

這個貌似不太可能,因為我們的shell腳本里執行java的時候都會帶上&,這樣進程就會後台運行,不會出現這種session的問題。看了下腳本,確實是帶上了&的,自己也模擬了幾遍,在一個shell里調用帶有&的java命令,關閉終端java進程並不會退出。難道是因為同事的終端配置和我的不一樣?後來要同事發了它的iTerm2里的seesion的配置給我看了下,和我的完全一樣,這就挺奇怪了。

於是再回過來看看之前的幾次進程消失時候的日誌(我要同事有保留),看到那幾個進程退出的時間點,分別是

  • 2019-01-14 20:42:52* 2019-01-15 18:34:00* 2019-01-18 00:57:58* 2019-01-18 17:34:30

這幾個時間點完全沒有規律看起來,不過我突然想起2019-01-18那天是周五,同事是在上海出差,而17:34:30那會應該是快下班了,或者那會正好從上海趕車回杭州,於是問了下那個點同事是不是準備回杭州了,同事說那會確實合上電腦準備趕車回杭州,於是我接著問其他幾個時間是不是差不多也是合上電腦的時間,結果還真是那麼巧,既然這樣,那說明我們的判斷方向是正確的了。

水落石出

後面突然發現同事修改過這個啟動腳本,在腳本的最後加了行命令

java xxxx &cd $DIR_LOG && tail -f common-*.log

難道是這個命令搞的鬼?

突然想起一個問題來,父子進程的問題,假如說當我們在shell里加了&跑的話,當父進程跑完之後,會直接將其掛到init進程下面,也就是你通過ps -ef去看它的父進程會是1號進程,但是如果原來的父進程沒有跑完,那其父進程仍然會是原來的進程,所以當我們執行這個腳本的時候,一直被執行tail等待日誌輸出,這樣一來,如果我們將當前窗口關閉了,那就意味著父進程會退出,然後給子進程發送SIGHUP的訊號,於是導致java進程退出,但是如果我們在tail日誌過程中ctrl c了,那java進程會過繼給init進程,因此此時當我們再關閉窗口的時候也不會給其發送SIGHUP的訊號了。

經過驗證果然如此,至此這個消失的進程終於得到了解釋,嗯,好在不是我們程式碼的問題,值得欣慰,畢竟我們的程式碼是要在客戶那邊運行的,必須要保證好穩定性。