历史版本2 :场景案例-应用宕机处理与分析 返回文档
编辑时间:
内容长度:图片数:目录数:
修改原因:
1. 概述编辑
1.1 用户痛点
发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。
夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。
1.2 解决思路
运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行
对接运维平台
发生内存宕机,自动触发堆栈,histo,dump的采集,并且自动重启系统
宕机自动处理对宕机问题进行分析给出可能的原因
通过运维平台下载宕机信息用于事后分析
1.3 视频展示
[helpvideo]4435[/helpvideo]
2. 案例详情编辑
1)负载异常警告
采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。
运维平台对接FRBI应用,运维平台检测到FRBI进程负载过高。
2)采集宕机信息
运维平台自动采集当前宕机状态的FRBI信息。
运维平台在负载极高判定为宕机的情况下自动触发信息采集。
自动采集堆栈/histo/heapdump (可根据自身需求自定义采集哪些内容)
采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。
采集宕机信息后自动重启
夜间检测到进程消失自动启动
4)工程恢复使用
FRBI系统负载降低,恢复正常使用5)宕机信息分析
运维平台宕机自动处理页面,查询宕机信息和分析结果进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间
查看宕机原因和推荐处理方案
6)下载宕机信息
运维平台日志下载页面,下载对应的宕机信息进入运维平台日志下载页面,选择对应的应用
可以下载堆栈/gc信息,以压缩包的形式返回记录到的高负载信息记录
heapdump数据量较大暂不提供前端下载,可以在frbi对应目录下获取
8)修复异常配置项
健康诊断页面,进行检测,发现内存配置隐患,进行修复。
7)查看宕机信息
FRBI应用对应目录下,可以查看到运维平台自动采集的信息。