1. 概述
1.1 版本
| 运维平台版本 | 功能变更 |
|---|---|
| V1.5.0 | - |
| V1.5.7 | 「自动导出内存堆栈」功能拆解到「性能堆栈」中,详情请参见:性能堆栈 |
| V2.10.0 | 取消「宕机自动处理」大开关,默认开启 |
| V2.12.0 | 宕机处理策略入口变更至「可用性统计」下 |
| V2.29.0 | FineBI项目新增多种宕机处理策略 |
1.2 应用场景
帆软工程部署在服务器上后,可能会因为各种原因导致宕机。
宕机后若直接重启而没有抓取 DUMP 文件,很难定位到真实原因。
这不仅无法快速解决问题,还无法采取预防措施,导致时间和精力的巨大损失,对服务器运维非常不友好。
1.3 功能简介
如何有效监测和处理帆软应用的宕机问题,以减少时间和精力的损失,并提高服务器运维的友好性?
运维平台支持调用运维项目中的宕机处理工具,对帆软应用进行宕机监测与自动处理。
1)当监测到运维项目宕机后,自动生成 DUMP 文件,同时可重新启动工程、恢复进程。
2)通过分析生成的 DUMP 文件,快速定位宕机原因,及时处理宕机问题,并采取有效的预防措施,为用户增加一道保险。
本文将详细讲解如何开启宕机自动处理,并设置相关宕机处理策略。
2. 运维平台部署的项目
2.1 确保宕机处理工具可用
宕机处理工具,是运维项目中一个独立运行的工具。运维平台对项目的宕机监测和自动重启等,均依赖该工具。
| 确保工具端口可用 | 对于运维平台部署的项目,在部署时已配置了宕机处理工具的端口,并进行了占用检测,确保可用。所以无需再设置端口。 |
| 确保工具正常运行 | 宕机处理工具一般都在正常运行,但请注意若项目应用主进程关闭,宕机处理工具视情况关闭
|
2.2 配置宕机处理策略
1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。
2)开启「宕机自动重启」,这是开启其他宕机处理策略的前提。
3)支持配置各类宕机处理策略,点击「保存」生效。
4)当触发宕机处理策略后,会自动触发对应组件/工程重启。
| 宕机处理策略 | 触发条件 |
|---|---|
| 高负载检查 | 面向项目:所有运维平台部署的项目 面向组件:fr、fdl、bi-web 触发机制:连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100),会自动触发对应组件重启 |
| 引擎计算节点 | 面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目 面向组件:bi-engine-worker 支持配置的策略规则:
触发机制:(以默认策略规则进行示例讲解)
|
| 引擎元数据节点 | 面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目 面向组件:bi-engine-master 支持配置的策略规则:
触发机制:(以默认策略规则进行示例讲解)
|
| FineBI应用节点 | 面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目 面向组件:bi-web 支持配置的策略规则:
触发机制:(以默认策略规则进行示例讲解)
|
| j2v8服务 | 面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI7.0.6及以上版本项目,且独立部署了Fine Canvas服务 面向组件:fine-canvas 支持配置的策略规则:
触发机制:(以默认策略规则进行示例讲解)
|

3. 非运维平台部署的项目
3.1 确保宕机处理工具可用
宕机处理工具,是运维项目中一个独立运行的工具。运维平台对项目的宕机监测和自动重启等,均依赖该工具。
| 确认项目类型 |
|
| 确保工具端口可用 | 对于非运维平台部署的项目,需要设置宕机处理工具占用的端口,确保可用 1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」 2)在「端口设置」中输入占用端口:默认端口为 12100,端口号范围必须在1024 到 65535 之间 3)点击「测试」,提示「端口可用,保存后宕机自动处理工具将在新端口重启」 4)点击「保存」,即可使宕机自动处理工具占用新端口运行。
|
| 确保工具正常运行 | 宕机处理工具一般都在正常运行,但请注意若项目应用主进程关闭,宕机处理工具视情况关闭
|
3.2 配置宕机自动重启
1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。
2)支持开启「宕机自动重启」,点击「保存」生效。
3)当fr、fdl、bi-web组件,连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100)时,如开启了「宕机自动重启」策略,会自动触发对应组件/工程重启。

3.3 配置进程自动恢复
1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。
2)支持开启「进程自动恢复」。开启后可设置功能生效时间段。点击「保存」生效。
3)在功能生效时间段内,当fr、fdl、bi-web组件进程消失时,会自动恢复。

