你帶的團隊,線上故障頻發?並不是技術能力問題
- 2020 年 3 月 12 日
- 筆記
某團隊,做SaaS平台的,業務很複雜,接入的第三方系統繁多;每月總能有那麼一次線上故障 。
而且,一旦出故障,還是那種幾個小時才能恢復的那種 。
另,一個嚴重的問題是:每次出故障,平台自身並沒有任何的預警,用戶回饋了,才知道自己平台某個環節(業務流、功能等),出故障了 。
另外,出故障,就得緊急修復,慌忙之中,緊急上線,修復一個問題,往往帶來新的Bug 。
客戶一堆投訴 。
老闆一頓痛罵 。
團隊開會反省 。
最後,出了一堆的復盤報告、後續處理措施… ;1個月後,其他模組的,類似問題,又來了 。
如此反覆,1年結束了 。
總是在「出故障 -> 緊急修復 -> 客戶投訴、老闆痛罵 -> 團隊開會復盤」的循環中 。
這裡的問題是什麼 ?
1、故障應急預案 。
2、核心業務的數據監控 、 可用性監控 。
3、巡檢機制 。
4、上線流程 。
等等 。
註:如上的這個案例,場景熟悉否 ?你的團隊是否有類似情況 ?
這裡的問題,跟技術強相關么 ?
有哪些是測試團隊可以做的 ?
做了一個混了十幾年的老司機,老徐覺得「核心業務/核心業務場景 的 自動化回歸」,測試團隊得做(而且投入不了太多資源,就有效果) 。
核心業務,業務流回歸、業務場景回歸 ,確保上線任何版本,不會導致已有問題出故障、而團隊不自知的情況 。
如果做不到自動巡檢 。
定期人工巡檢 ,這種最傳統最土的方式,但有效 ;
每天早上,專人把核心業務走一遍,出問題及時聯繫開發解決,在用戶發現前,把問題修復了(這一條,沒任何的技術含量,但會有一點點效果)。
類似的,可以做的,非技術手段,很多很多 。
對於,品質團隊Leader,每天都應該思考這些 ;而不是把自己陷入各種無意義的會議,或者具體的測試執行中 。
End 。