历史版本2 :场景案例-应用宕机处理与分析 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 用户痛点

  • 发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。

  • 夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。

1.2 解决思路

运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行

  • 对接运维平台

  • 发生内存宕机,自动触发堆栈,histo,dump的采集,并且自动重启系统

  • 宕机自动处理对宕机问题进行分析给出可能的原因

  • 通过运维平台下载宕机信息用于事后分析

1.3 视频展示

[helpvideo]4435[/helpvideo]

2. 案例详情编辑

1)负载异常警告

运维平台对接FRBI应用,运维平台检测到FRBI进程负载过高。

2)采集宕机信息

运维平台自动采集当前宕机状态的FRBI信息。

  • 运维平台在负载极高判定为宕机的情况下自动触发信息采集。

  • 自动采集堆栈/histo/heapdump (可根据自身需求自定义采集哪些内容)

3)自动重启工程
采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。
  • 采集宕机信息后自动重启

  • 夜间检测到进程消失自动启动

4)工程恢复使用

FRBI系统负载降低,恢复正常使用

5)宕机信息分析

运维平台宕机自动处理页面,查询宕机信息和分析结果
  • 进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间

  • 查看宕机原因和推荐处理方案

6)下载宕机信息

运维平台日志下载页面,下载对应的宕机信息
  • 进入运维平台日志下载页面,选择对应的应用

  • 可以下载堆栈/gc信息,以压缩包的形式返回记录到的高负载信息记录

  • heapdump数据量较大暂不提供前端下载,可以在frbi对应目录下获取

8)修复异常配置项

健康诊断页面,进行检测,发现内存配置隐患,进行修复。

7)查看宕机信息

FRBI应用对应目录下,可以查看到运维平台自动采集的信息。