最新历史版本 :场景案例-应用宕机处理与分析 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 用户痛点

  • 发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。

  • 夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。

1.2 解决思路

运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行。

  • 宕机前的预防:为了防止宕机时无人值守,需要开启宕机处理策略,确保运维平台可以自动重启工程。

  • 宕机时的采集:宕机时,自动导出内存堆栈日志信息

  • 采集后的恢复:宕机信息采集完成后,运维平台帮助管理员自动重启工程、恢复进程。

  • 恢复后的分析:宕机时,运维平台会自动导出内存堆栈,可以给出针对宕机的原因分析和解决方案,可以自动对宕机堆栈进行分析。

2. 案例详情编辑

2.1 宕机前的预防

在「业务工具>宕机自动处理>宕机处理策略」,开启宕机自动处理相关功能,确保运维平台发生宕机后运维平台可以进行处理措施。

2.2 宕机时的采集

运维平台自动采集当前宕机状态的FRBI信息。

  • 运维平台在负载极高判定为宕机的情况下自动触发信息采集。

  • 自动采集堆栈/histo/heapdump (可在上一步根据自身需求自定义采集哪些内容)

2.3 采集后的恢复

采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。

  • 采集宕机信息后自动重启

  • 夜间检测到进程消失自动启动

2.4 恢复后的分析

1)运维平台宕机自动处理页面,查询宕机信息和分析结果

  • 进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间

  • 查看宕机原因和推荐处理方案

2)运维平台「日志管理>性能堆栈」页面,查看对应宕机日志的分析报告。

3)查看宕机信息

FRBI应用对应目录下,可以查看到运维平台自动采集的信息。