你帶的團隊,線上故障頻發?並不是技術能力問題

  • 2020 年 3 月 12 日
  • 筆記

某團隊,做SaaS平台的,業務很複雜,接入的第三方系統繁多;每月總能有那麼一次線上故障 。

而且,一旦出故障,還是那種幾個小時才能恢復的那種 。

另,一個嚴重的問題是:每次出故障,平台自身並沒有任何的預警,用戶回饋了,才知道自己平台某個環節(業務流、功能等),出故障了 。

另外,出故障,就得緊急修復,慌忙之中,緊急上線,修復一個問題,往往帶來新的Bug 。

客戶一堆投訴 。

老闆一頓痛罵 。

團隊開會反省 。

最後,出了一堆的復盤報告、後續處理措施… ;1個月後,其他模組的,類似問題,又來了 。

如此反覆,1年結束了 。

總是在「出故障 -> 緊急修復 -> 客戶投訴、老闆痛罵 -> 團隊開會復盤」的循環中 。

這裡的問題是什麼 ?

1、故障應急預案 。

2、核心業務的數據監控 、 可用性監控 。

3、巡檢機制 。

4、上線流程 。

等等 。

註:如上的這個案例,場景熟悉否 ?你的團隊是否有類似情況 ?

這裡的問題,跟技術強相關么 ?

有哪些是測試團隊可以做的 ?

做了一個混了十幾年的老司機,老徐覺得「核心業務/核心業務場景 的 自動化回歸」,測試團隊得做(而且投入不了太多資源,就有效果) 。

核心業務,業務流回歸、業務場景回歸 ,確保上線任何版本,不會導致已有問題出故障、而團隊不自知的情況 。

如果做不到自動巡檢 。

定期人工巡檢 ,這種最傳統最土的方式,但有效 ;

每天早上,專人把核心業務走一遍,出問題及時聯繫開發解決,在用戶發現前,把問題修復了(這一條,沒任何的技術含量,但會有一點點效果)。

類似的,可以做的,非技術手段,很多很多 。

對於,品質團隊Leader,每天都應該思考這些 ;而不是把自己陷入各種無意義的會議,或者具體的測試執行中 。

End 。