你带的团队，线上故障频发？并不是技术能力问题

某团队，做SaaS平台的，业务很复杂，接入的第三方系统繁多；每月总能有那么一次线上故障。

而且，一旦出故障，还是那种几个小时才能恢复的那种。

另，一个严重的问题是：每次出故障，平台自身并没有任何的预警，用户反馈了，才知道自己平台某个环节（业务流、功能等），出故障了。

另外，出故障，就得紧急修复，慌忙之中，紧急上线，修复一个问题，往往带来新的Bug 。

客户一堆投诉。

老板一顿痛骂。

团队开会反省。

最后，出了一堆的复盘报告、后续处理措施… ；1个月后，其他模块的，类似问题，又来了。

如此反复，1年结束了。

总是在「出故障 -> 紧急修复 -> 客户投诉、老板痛骂 -> 团队开会复盘」的循环中。

这里的问题是什么？

1、故障应急预案。

2、核心业务的数据监控、可用性监控。

3、巡检机制。

4、上线流程。

等等。

注：如上的这个案例，场景熟悉否？你的团队是否有类似情况？

这里的问题，跟技术强相关么？

有哪些是测试团队可以做的？

做了一个混了十几年的老司机，老徐觉得「核心业务/核心业务场景的自动化回归」，测试团队得做（而且投入不了太多资源，就有效果）。

核心业务，业务流回归、业务场景回归，确保上线任何版本，不会导致已有问题出故障、而团队不自知的情况。

如果做不到自动巡检。

定期人工巡检 ，这种最传统最土的方式，但有效；

每天早上，专人把核心业务走一遍，出问题及时联系开发解决，在用户发现前，把问题修复了（这一条，没任何的技术含量，但会有一点点效果）。

类似的，可以做的，非技术手段，很多很多。

对于，质量团队Leader，每天都应该思考这些；而不是把自己陷入各种无意义的会议，或者具体的测试执行中。

End 。