历史版本16 :宕机处理策略 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.5.0-
V1.5.7「自动导出内存堆栈」功能拆解到「性能堆栈」中,详情请参见:性能堆栈
V2.10.0取消「宕机自动处理」大开关,默认开启
V2.12.0宕机处理策略入口变更至「可用性统计」下

1.2 应用场景

帆软工程部署在服务器上后,可能会因为各种原因导致宕机。

宕机后若直接重启而没有抓取 DUMP 文件,很难定位到真实原因。

这不仅无法快速解决问题,还无法采取预防措施,导致时间和精力的巨大损失,对服务器运维非常不友好。

1.3 功能简介

如何有效监测和处理帆软应用的宕机问题,以减少时间和精力的损失,并提高服务器运维的友好性?

运维平台支持调用运维项目中的宕机处理工具,对帆软应用进行宕机监测与自动处理。

1)当监测到运维项目宕机后,自动生成 DUMP 文件,同时可重新启动工程、恢复进程。

2)通过分析生成的 DUMP 文件,快速定位宕机原因,及时处理宕机问题,并采取有效的预防措施,为用户增加一道保险。

本文将详细讲解如何开启宕机自动处理,并设置相关宕机处理策略。

2. 确保宕机处理工具可用编辑

宕机处理工具,是运维项目中一个独立运行的工具。运维平台对项目的宕机监测和自动重启等,均依赖该工具。

2.1 工具运行时间

若项目应用主进程关闭,宕机处理工具视情况关闭

  • 在工作时段(6:00-23:00),当应用主进程关闭5分钟后,宕机处理工具也跟随关闭。

  • 在非工作时段(0:00-6:00,23:00-24:00),应用主进程关闭,宕机处理工具不跟随关闭。

2.2 工具端口

宕机处理工具的运行,需要占用应用所在服务器的端口,必须确保端口空闲可用方可。

  • 对于运维平台部署的项目,在部署时已配置了宕机处理工具的端口,并进行了占用检测,确保可用。所以无需再设置端口。

  • 对于非运维平台部署的项目,需要设置宕机处理工具占用的端口,确保可用

1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」

2)在「端口设置」中输入占用端口:默认端口为 12100,端口号范围必须在1024 到 65535 之间

3)点击「测试」,提示「端口可用,保存后宕机自动处理工具将在新端口重启」

4)点击「保存」,即可使宕机自动处理工具占用新端口运行。

3. 配置宕机处理策略编辑

3.1 宕机自动重启

1)策略使用前提

项目部署方式
服务器类型工程启动方式使用说明
运维平台部署--支持宕机自动重启
非运维平台部署Linux-
WindowsWindows服务形式不支持宕机自动重启
非Windows 服务形式

不确保宕机自动重启一定生效

可能会存在重启失败的情况

2)启用策略

管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。

支持开启「宕机自动重启」,点击「保存」生效。

3)触发策略

fr、fdl、bi-web、bi-worker、bi-master组件,连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100)时,

如开启了「宕机自动重启」策略,会自动触发对应组件/工程重启。

3.2 进程自动恢复

1)策略使用前提

项目部署方式
服务器类型工程启动方式使用说明
运维平台部署--

不提供该配置

运维平台部署的工程,由容器提供进程自动恢复功能,无需宕机处理工具提供该功能

非运维平台部署Linux-支持进程自动恢复
WindowsWindows服务形式支持进程自动恢复
非Windows 服务形式

不确保进程自动恢复一定生效

可能会存在恢复失败的情况

2)启用策略

管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。

支持开启「进程自动恢复」。开启后可设置功能生效时间段。

点击「保存」生效。

3)触发策略

功能生效时间段内,当fr、fdl、bi-web、bi-worker、bi-master组件进程消失时,会自动恢复。