你帶的團隊，線上故障頻發？並不是技術能力問題

某團隊，做SaaS平台的，業務很複雜，接入的第三方系統繁多；每月總能有那麼一次線上故障。

而且，一旦出故障，還是那種幾個小時才能恢復的那種。

另，一個嚴重的問題是：每次出故障，平台自身並沒有任何的預警，用戶回饋了，才知道自己平台某個環節（業務流、功能等），出故障了。

另外，出故障，就得緊急修復，慌忙之中，緊急上線，修復一個問題，往往帶來新的Bug 。

客戶一堆投訴。

老闆一頓痛罵。

團隊開會反省。

最後，出了一堆的復盤報告、後續處理措施… ；1個月後，其他模組的，類似問題，又來了。

如此反覆，1年結束了。

總是在「出故障 -> 緊急修復 -> 客戶投訴、老闆痛罵 -> 團隊開會復盤」的循環中。

這裡的問題是什麼？

1、故障應急預案。

2、核心業務的數據監控、可用性監控。

3、巡檢機制。

4、上線流程。

等等。

註：如上的這個案例，場景熟悉否？你的團隊是否有類似情況？

這裡的問題，跟技術強相關么？

有哪些是測試團隊可以做的？

做了一個混了十幾年的老司機，老徐覺得「核心業務/核心業務場景的自動化回歸」，測試團隊得做（而且投入不了太多資源，就有效果）。

核心業務，業務流回歸、業務場景回歸，確保上線任何版本，不會導致已有問題出故障、而團隊不自知的情況。

如果做不到自動巡檢。

定期人工巡檢 ，這種最傳統最土的方式，但有效；

每天早上，專人把核心業務走一遍，出問題及時聯繫開發解決，在用戶發現前，把問題修復了（這一條，沒任何的技術含量，但會有一點點效果）。

類似的，可以做的，非技術手段，很多很多。

對於，品質團隊Leader，每天都應該思考這些；而不是把自己陷入各種無意義的會議，或者具體的測試執行中。

End 。