你带的团队,线上故障频发?并不是技术能力问题

  • 2020 年 3 月 12 日
  • 筆記

某团队,做SaaS平台的,业务很复杂,接入的第三方系统繁多;每月总能有那么一次线上故障 。

而且,一旦出故障,还是那种几个小时才能恢复的那种 。

另,一个严重的问题是:每次出故障,平台自身并没有任何的预警,用户反馈了,才知道自己平台某个环节(业务流、功能等),出故障了 。

另外,出故障,就得紧急修复,慌忙之中,紧急上线,修复一个问题,往往带来新的Bug 。

客户一堆投诉 。

老板一顿痛骂 。

团队开会反省 。

最后,出了一堆的复盘报告、后续处理措施… ;1个月后,其他模块的,类似问题,又来了 。

如此反复,1年结束了 。

总是在「出故障 -> 紧急修复 -> 客户投诉、老板痛骂 -> 团队开会复盘」的循环中 。

这里的问题是什么 ?

1、故障应急预案 。

2、核心业务的数据监控 、 可用性监控 。

3、巡检机制 。

4、上线流程 。

等等 。

注:如上的这个案例,场景熟悉否 ?你的团队是否有类似情况 ?

这里的问题,跟技术强相关么 ?

有哪些是测试团队可以做的 ?

做了一个混了十几年的老司机,老徐觉得「核心业务/核心业务场景 的 自动化回归」,测试团队得做(而且投入不了太多资源,就有效果) 。

核心业务,业务流回归、业务场景回归 ,确保上线任何版本,不会导致已有问题出故障、而团队不自知的情况 。

如果做不到自动巡检 。

定期人工巡检 ,这种最传统最土的方式,但有效 ;

每天早上,专人把核心业务走一遍,出问题及时联系开发解决,在用户发现前,把问题修复了(这一条,没任何的技术含量,但会有一点点效果)。

类似的,可以做的,非技术手段,很多很多 。

对于,质量团队Leader,每天都应该思考这些 ;而不是把自己陷入各种无意义的会议,或者具体的测试执行中 。

End 。