你带的团队,线上故障频发?并不是技术能力问题
- 2020 年 3 月 12 日
- 筆記
某团队,做SaaS平台的,业务很复杂,接入的第三方系统繁多;每月总能有那么一次线上故障 。
而且,一旦出故障,还是那种几个小时才能恢复的那种 。
另,一个严重的问题是:每次出故障,平台自身并没有任何的预警,用户反馈了,才知道自己平台某个环节(业务流、功能等),出故障了 。
另外,出故障,就得紧急修复,慌忙之中,紧急上线,修复一个问题,往往带来新的Bug 。
客户一堆投诉 。
老板一顿痛骂 。
团队开会反省 。
最后,出了一堆的复盘报告、后续处理措施… ;1个月后,其他模块的,类似问题,又来了 。
如此反复,1年结束了 。
总是在「出故障 -> 紧急修复 -> 客户投诉、老板痛骂 -> 团队开会复盘」的循环中 。
这里的问题是什么 ?
1、故障应急预案 。
2、核心业务的数据监控 、 可用性监控 。
3、巡检机制 。
4、上线流程 。
等等 。
注:如上的这个案例,场景熟悉否 ?你的团队是否有类似情况 ?
这里的问题,跟技术强相关么 ?
有哪些是测试团队可以做的 ?
做了一个混了十几年的老司机,老徐觉得「核心业务/核心业务场景 的 自动化回归」,测试团队得做(而且投入不了太多资源,就有效果) 。
核心业务,业务流回归、业务场景回归 ,确保上线任何版本,不会导致已有问题出故障、而团队不自知的情况 。
如果做不到自动巡检 。
定期人工巡检 ,这种最传统最土的方式,但有效 ;
每天早上,专人把核心业务走一遍,出问题及时联系开发解决,在用户发现前,把问题修复了(这一条,没任何的技术含量,但会有一点点效果)。
类似的,可以做的,非技术手段,很多很多 。
对于,质量团队Leader,每天都应该思考这些 ;而不是把自己陷入各种无意义的会议,或者具体的测试执行中 。
End 。