下面是一些标准问题。如果在原因分析/改进措施中已经处理,请写上改进措施序号。对于没有处理的,说明为什么不需要处理。
为什么会发生这个问题?design、coding、操作?
内部宣导不够、以及新出的坏道告警处理方式双方没有对齐。
为什么测试阶段没有发现?
新上的告警灰度阶段发现的问题,测试阶段无法覆盖
系统为什么不能容错?
不需要处理
能不能更早发现问题?
双方建立告警对接机制
解决过程能否更快?
不需要处理,主要是流程优化。
怎么防止类似的事情发生?
加强内部宣导;进一步完善SOP;对于新告警,双方及时对齐处理方案
我们是否过度思考了?