1. 概述
1.1 用户痛点
发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。
夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。
1.2 解决思路
运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行。
宕机前的预防:为了防止宕机时无人值守,需要开启宕机处理策略,确保运维平台可以自动重启工程。
宕机时的采集:宕机时,自动导出内存堆栈日志信息
采集后的恢复:宕机信息采集完成后,运维平台帮助管理员自动重启工程、恢复进程。
恢复后的分析:宕机时,运维平台会自动导出内存堆栈,可以给出针对宕机的原因分析和解决方案,可以自动对宕机堆栈进行分析。
2. 案例详情
2.1 宕机前的预防
在「业务工具>宕机自动处理>宕机处理策略」,开启宕机自动处理相关功能,确保运维平台发生宕机后运维平台可以进行处理措施。
2.2 宕机时的采集
运维平台自动采集当前宕机状态的FRBI信息。
运维平台在负载极高判定为宕机的情况下自动触发信息采集。
自动采集堆栈/histo/heapdump (可在上一步根据自身需求自定义采集哪些内容)
2.3 采集后的恢复
采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。
采集宕机信息后自动重启
夜间检测到进程消失自动启动
2.4 恢复后的分析
1)运维平台宕机自动处理页面,查询宕机信息和分析结果
进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间
查看宕机原因和推荐处理方案
2)运维平台「日志管理>性能堆栈」页面,查看对应宕机日志的分析报告。
3)查看宕机信息
FRBI应用对应目录下,可以查看到运维平台自动采集的信息。