帆软社区

首页服务平台文档学院问答论坛认证招聘任务市场

登录

反馈已提交

网络繁忙

场景案例-应用宕机处理与分析

对此内容反馈

文档创建者：Carly

历史版本：3

最近更新：Carly 于 2023-06-28

1. 概述

1.1 用户痛点

发生了内存宕机类问题，由于生产环境，必须要第一时间恢复环境，没有来得及登录到后台输入命令收集宕机信息，导致问题无法定位。
夜间发生了宕机，由于没有人24h监控，或者由于没有办法触碰到内网环境，导致第二天才能够恢复，导致发生了生产事故。

1.2 解决思路

运维平台自动识别宕机情况，并且自动采集宕机信息，采集完信息后，自动重启工程，保证工程持久运行。

宕机前的预防：为了防止宕机时无人值守，需要开启宕机处理策略，确保运维平台可以自动重启工程。
宕机时的采集：宕机时，自动导出内存堆栈日志信息
采集后的恢复：宕机信息采集完成后，运维平台帮助管理员自动重启工程、恢复进程。
恢复后的分析：宕机时，运维平台会自动导出内存堆栈，可以给出针对宕机的原因分析和解决方案，可以自动对宕机堆栈进行分析。

2. 案例详情

2.1 宕机前的预防

在「业务工具>宕机自动处理>宕机处理策略」，开启宕机自动处理相关功能，确保运维平台发生宕机后运维平台可以进行处理措施。

2.2 宕机时的采集

运维平台自动采集当前宕机状态的FRBI信息。

运维平台在负载极高判定为宕机的情况下自动触发信息采集。
自动采集堆栈/histo/heapdump （可在上一步根据自身需求自定义采集哪些内容）

2.3 采集后的恢复

采集完宕机状态信息后自动重启FRBI应用，恢复系统使用。

采集宕机信息后自动重启
夜间检测到进程消失自动启动

2.4 恢复后的分析

1）运维平台宕机自动处理页面，查询宕机信息和分析结果

进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间
查看宕机原因和推荐处理方案

2）运维平台「日志管理>性能堆栈」页面，查看对应宕机日志的分析报告。

3）查看宕机信息

FRBI应用对应目录下，可以查看到运维平台自动采集的信息。

上一篇：运维平台场景案例

下一篇：场景案例-应用配置修改与启停

有帮助
没帮助
只是浏览

English 中文（繁體）

中文（简体）

鼠标选中内容，快速反馈问题

鼠标选中存在疑惑的内容，即可快速反馈问题，我们将会跟进处理。

不再提示

10s后关闭

联系我们

仅适用于当前网页的意见收集，帆软产品问题请在问答板块提问或前往服务平台获取技术支持