反馈已提交

网络繁忙

场景案例-应用宕机处理与分析

  • 文档创建者:Carly
  • 历史版本:3
  • 最近更新:Carly 于 2023-06-28
  • 1. 概述

    1.1 用户痛点

    • 发生了内存宕机类问题,由于生产环境,必须要第一时间恢复环境,没有来得及登录到后台输入命令收集宕机信息,导致问题无法定位。

    • 夜间发生了宕机,由于没有人24h监控,或者由于没有办法触碰到内网环境,导致第二天才能够恢复,导致发生了生产事故。

    1.2 解决思路

    运维平台自动识别宕机情况,并且自动采集宕机信息,采集完信息后,自动重启工程,保证工程持久运行。

    • 宕机前的预防:为了防止宕机时无人值守,需要开启宕机处理策略,确保运维平台可以自动重启工程。

    • 宕机时的采集:宕机时,自动导出内存堆栈日志信息

    • 采集后的恢复:宕机信息采集完成后,运维平台帮助管理员自动重启工程、恢复进程。

    • 恢复后的分析:宕机时,运维平台会自动导出内存堆栈,可以给出针对宕机的原因分析和解决方案,可以自动对宕机堆栈进行分析。

    2. 案例详情

    2.1 宕机前的预防

    在「业务工具>宕机自动处理>宕机处理策略」,开启宕机自动处理相关功能,确保运维平台发生宕机后运维平台可以进行处理措施。

    2.2 宕机时的采集

    运维平台自动采集当前宕机状态的FRBI信息。

    • 运维平台在负载极高判定为宕机的情况下自动触发信息采集。

    • 自动采集堆栈/histo/heapdump (可在上一步根据自身需求自定义采集哪些内容)

    2.3 采集后的恢复

    采集完宕机状态信息后自动重启FRBI应用,恢复系统使用。

    • 采集宕机信息后自动重启

    • 夜间检测到进程消失自动启动

    2.4 恢复后的分析

    1)运维平台宕机自动处理页面,查询宕机信息和分析结果

    • 进入运维平台宕机自动处理页面可以查看到宕机事故记录/信息采集时间/重启时间

    • 查看宕机原因和推荐处理方案

    2)运维平台「日志管理>性能堆栈」页面,查看对应宕机日志的分析报告。

    3)查看宕机信息

    FRBI应用对应目录下,可以查看到运维平台自动采集的信息。


    附件列表


    主题: 场景案例
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持