目录

如何处理「线上问题」

什么是「线上问题」

从产品开发周期上来讲,「线上问题」发生在产品发布后。

「线上问题」指提供给用户的服务全部或部分不可用、服务性能低、用户体验不好等。在产品前期阶段,为了抢占市场先机,产品新功能的发布速度追求往往优先于其质量,埋下了很多技术债务,部分技术债务的爆发会引起「线上问题」,造成客户满意度下降,甚至是直接经济损失。

「线上问题」流程概览

发现 -> 处理 -> 总结 -> 反馈

https://s2.loli.net/2024/02/04/ohEylmBVjxzFCZ2.jpg
流程概览

严重程度

严重程度 描述 处理方式
致命 最高级别,系统或服务完全停止或无法使用 立即采取紧急措施进行解决
严重 次高级别,系统或服务部分停止或使用受限 尽快地采取措施进行解决
一般 一般级别,系统或服务的使用没有明显的影响 但需要在合理的时间内进行处理,以防发展成更高级别的故障
轻微 最低级别,不影响系统或服务使用的小问题或异常 日常维护过程中逐步处理

处理流程

用户反馈 & 监控告警

https://s2.loli.net/2024/02/04/RiveDd1OTfGPWaB.png
处理流程

值班策略

每周轮换:每周一上午10点,会在钉群推送本周值班的人员,如下图

https://s2.loli.net/2024/02/04/msFQUaAZljhnNb6.jpg
告警通知示意图

错误分析报告

每天会进行日志分析,向钉钉服务告警群推送 日志错误分类报告

值班RD每天下班前,针对报告进行分析,如果判断为线上问题,报告给QA进行登记

复盘报告

故障复盘报告(致命)

https://s2.loli.net/2024/02/04/oqlZSE7Mnhtf5TC.jpg
故障复盘报告模板

双周复盘报告(整体)

https://s2.loli.net/2024/02/04/37iUajBlyXfZPe1.jpg
双周复盘报告模板