反馈已提交

网络繁忙

宕机处理策略

  • 文档创建者:Carly
  • 历史版本:16
  • 最近更新:Carly 于 2025-12-16
  • 1. 概述

    1.1 版本

    运维平台版本
    功能变更
    V1.5.0-
    V1.5.7「自动导出内存堆栈」功能拆解到「性能堆栈」中,详情请参见:性能堆栈
    V2.10.0取消「宕机自动处理」大开关,默认开启
    V2.12.0宕机处理策略入口变更至「可用性统计」下
    V2.29.0FineBI项目新增多种宕机处理策略

    1.2 应用场景

    帆软工程部署在服务器上后,可能会因为各种原因导致宕机。

    宕机后若直接重启而没有抓取 DUMP 文件,很难定位到真实原因。

    这不仅无法快速解决问题,还无法采取预防措施,导致时间和精力的巨大损失,对服务器运维非常不友好。

    1.3 功能简介

    如何有效监测和处理帆软应用的宕机问题,以减少时间和精力的损失,并提高服务器运维的友好性?

    运维平台支持调用运维项目中的宕机处理工具,对帆软应用进行宕机监测与自动处理。

    1)当监测到运维项目宕机后,自动生成 DUMP 文件,同时可重新启动工程、恢复进程。

    2)通过分析生成的 DUMP 文件,快速定位宕机原因,及时处理宕机问题,并采取有效的预防措施,为用户增加一道保险。

    本文将详细讲解如何开启宕机自动处理,并设置相关宕机处理策略。

    2. 运维平台部署的项目

    2.1 确保宕机处理工具可用

    宕机处理工具,是运维项目中一个独立运行的工具。运维平台对项目的宕机监测和自动重启等,均依赖该工具。



    确保工具端口可用对于运维平台部署的项目,在部署时已配置了宕机处理工具的端口,并进行了占用检测,确保可用。所以无需再设置端口。
    确保工具正常运行

    宕机处理工具一般都在正常运行,但请注意若项目应用主进程关闭,宕机处理工具视情况关闭


    • 在工作时段(6:00-23:00),当应用主进程关闭5分钟后,宕机处理工具也跟随关闭

    • 在非工作时段(0:00-6:00,23:00-24:00),应用主进程关闭,宕机处理工具不跟随关闭

    2.2 配置宕机处理策略

    1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。

    2)开启「宕机自动重启」,这是开启其他宕机处理策略的前提。

    3)支持配置各类宕机处理策略,点击「保存」生效。

    4)当触发宕机处理策略后,会自动触发对应组件/工程重启。

    宕机处理策略
    触发条件
    高负载检查

    面向项目:所有运维平台部署的项目

    面向组件:fr、fdl、bi-web

    触发机制:连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100),会自动触发对应组件重启

    引擎计算节点

    面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目

    面向组件:bi-engine-worker

    支持配置的策略规则:

    • 间隔时间interval:每次容器健康检查的间隔时间,默认30秒

    • 超时时间timeout:容器健康检查的超时返回时间,默认6秒

    • 连续失败阈值failureThreshold:容器连续健康检查失败的次数,达到即触发bi-engine-worker重启,默认10次

    触发机制:(以默认策略规则进行示例讲解)

    • 每隔30秒对bi-engine-worker容器进行一次健康检查,检查容器状态是否为health

    • 如果达到超时时间6秒仍未检测出容器状态,或容器状态非health,则认为容器健康检查失败

    • 当容器健康检查连续失败次数达到阈值10次,则自动触发bi-engine-worker重启

    引擎元数据节点

    面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目

    面向组件:bi-engine-master

    支持配置的策略规则:

    • 间隔时间interval:每次容器健康检查的间隔时间,默认30秒

    • 超时时间timeout:容器健康检查的超时返回时间,默认6秒

    • 连续失败阈值failureThreshold:容器连续健康检查失败的次数,达到即触发bi-engine-master重启,默认10次

    触发机制:(以默认策略规则进行示例讲解)

    • 每隔30秒对bi-engine-master容器进行一次健康检查,检查容器状态是否为health

    • 如果达到超时时间6秒仍未检测出容器状态,或容器状态非health,则认为容器健康检查失败

    • 当容器健康检查连续失败次数达到阈值10次,则自动触发bi-engine-master重启

    FineBI应用节点

    面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI6.1.9/7.0.6及以上版本项目

    面向组件:bi-web

    支持配置的策略规则:

    • 间隔时间interval:每次容器健康检查的间隔时间,默认60秒

    • 超时时间timeout:容器健康检查的超时返回时间,默认10秒

    • 连续失败阈值failureThreshold:容器连续健康检查失败的次数,达到即触发bi-web重启,默认10次

    触发机制:(以默认策略规则进行示例讲解)

    • 每隔60秒对bi-web容器进行一次健康检查,检查容器状态是否为health

    • 如果达到超时时间10秒仍未检测出容器状态,或容器状态非health,则认为容器健康检查失败

    • 当容器健康检查连续失败次数达到阈值10次,则自动触发bi-web重启

    j2v8服务

    面向项目:V2.29.0及之后版本运维平台部署/升级的FineBI7.0.6及以上版本项目,且独立部署了Fine Canvas服务

    面向组件:fine-canvas

    支持配置的策略规则:

    • 间隔时间interval:每次容器健康检查的间隔时间,默认10秒

    • 超时时间timeout:容器健康检查的超时返回时间,默认3秒

    • 连续失败阈值failureThreshold:容器连续健康检查失败的次数,达到即触发fine-canvas重启,默认3次

    触发机制:(以默认策略规则进行示例讲解)

    • 每隔10秒对fine-canvas容器进行一次健康检查,检查容器状态是否为health

    • 如果达到超时时间3秒仍未检测出容器状态,或容器状态非health,则认为容器健康检查失败

    • 当容器健康检查连续失败次数达到阈值3次,则自动触发fine-canvas重启

    3. 非运维平台部署的项目

    3.1 确保宕机处理工具可用

    宕机处理工具,是运维项目中一个独立运行的工具。运维平台对项目的宕机监测和自动重启等,均依赖该工具。



    确认项目类型
    • Linux服务器:部署在Linux服务器中的项目,支持配置宕机处理策

    • Windows服务器,工程启动方式为Windows服务形式:不支持配置宕机处理策

    • Windows服务器,工程启动方式非Windows服务形式:宕机处理策略不一定生效

    确保工具端口可用

    对于非运维平台部署的项目,需要设置宕机处理工具占用的端口,确保可用

    1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」

    2)在「端口设置」中输入占用端口:默认端口为 12100,端口号范围必须在1024 到 65535 之间

    3)点击「测试」,提示「端口可用,保存后宕机自动处理工具将在新端口重启」

    4)点击「保存」,即可使宕机自动处理工具占用新端口运行。

    确保工具正常运行

    宕机处理工具一般都在正常运行,但请注意若项目应用主进程关闭,宕机处理工具视情况关闭

    • 在工作时段(6:00-23:00),当应用主进程关闭5分钟后,宕机处理工具也跟随关闭

    • 在非工作时段(0:00-6:00,23:00-24:00),应用主进程关闭,宕机处理工具不跟随关闭

    3.2 配置宕机自动重启

    1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。

    2)支持开启「宕机自动重启」,点击「保存」生效。

    3)当fr、fdl、bi-web组件,连续FullGC后依旧负载较高(连续5次FullGC且负载分大于100)时,如开启了「宕机自动重启」策略,会自动触发对应组件/工程重启。

    3.3 配置进程自动恢复

    1)管理员登录运维平台,选择运维项目,点击「可用性统计>宕机处理策略」。

    2)支持开启「进程自动恢复」。开启后可设置功能生效时间段。点击「保存」生效。

    3)在功能生效时间段内,当fr、fdl、bi-web组件进程消失时,会自动恢复。


    附件列表


    主题: 项目管理
    • 有帮助
    • 没帮助
    • 只是浏览
    中文(简体)

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持