反馈已提交

网络繁忙

组件事件及退出码排查指南

  • 文档创建者:Carly
  • 历史版本:6
  • 最近更新:Carly 于 2026-01-30
  • 概述

    版本

    运维平台版本
    功能变更
    V2.16.0支持查看组件的「事件」
    V2.22.0对于「die」类型事件,新增退出码记录,方便定位宕机原因
    V2.31.0新增部分退出码

    应用场景

    在运维平台的项目管理中,管理员可在「组件管理>事件」中查看容器近7天发生的事件。

    查看组件事件

    1)管理员登录运维平台,点击指定项目,进入「维护>组件管理」

    2)点击对应组件的「事件」按钮,支持查看组件事件。

    • 仅保留近7天的事件

    • 支持展示事件的「容器组名」、「事件类型」、「节点」、「发生时间」

    3)支持的事件类型包括:

    事件类型说明
    start启动容器
    health_status: healthy容器健康检查通过
    health_status: unhealthy容器健康检查失败
    stop手动停止容器
    kill强制杀死容器
    die容器进程退出,停止运行

    die类型事件退出码

    退出码是程序结束运行时返回给系统的数字,用于表示程序执行的结果状态。

    对于「die」类型事件,运维平台支持查看退出码,本文详细介绍相关退出码含义。

    业务退出码

    即帆软对自身应用和引擎组件定义的退出码。

    退出码
    说明
    65

    面向组件:bi-engine-worker

    原因分析:worker组件退出,但此时worker组件的探活monitor未能获取到其退出码

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    66

    面向组件:bi-engine-worker

    原因分析:bi引擎组件的重启是有顺序性要求的,必须先启动master再启动worker。如果没有按照顺序依次启动master和worker组件,worker检测到自身状态异常后会自动下线,此时就会出现该退出码

    解决方案:

    1)对于6.1.4及以上版本的FineBI,出现此情况后无需用户手动操作,运维平台会自动按顺序重启worker容器,以恢复计算引擎的正常运行,耐心等待即可

    2)对于6.1.3及以下版本的FineBI,请手动停止全部master和worker组件,启动master组件至running状态三分钟(等待healthy),再启动全部worker组件

    72

    面向组件:bi-engine-master

    原因分析:面向部署了高可用master的FineBI项目,如果master容器失去了leader身份,系统会强制其退出(exit),以确保一致性

    解决方案:产品正常逻辑,无需手动处理

    79

    面向组件bi-engine-worker、bi-engine-master

    原因分析:容器进程被通过kill 15终止(即发送 SIGTERM 信号)

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    80

    面向组件bi-engine-worker、bi-engine-master

    原因分析:容器进程被通过kill 9终止(即发送SIGKILL信号),通常由系统OOM Killer触发(内存不足终止机制)

    解决方案:建议进行系统巡检,并参考巡检值,对相关组件的可用内存上限进行调整

    81面向组件:bi-engine-worker

    原因分析:由于 GC 或环境因素,导致worker卡住,从而引发心跳超时,导致worker退出

    解决方案:

    1)如果是垃圾回收(GC)导致,请优化 JVM 参数或减少内存负载

    2)如果是环境因素导致,需要根据系统日志定位根本原因,无常规排查方案

    84
    面向组件bi-engine-worker、bi-engine-master

    原因分析:数据存储服务的组件初始化失败,导致worker或master启动失败

    排查方向:

    1)IP 或域名解析失败:系统可能无法解析数据存储服务的域名或 IP 地址,请检查 DNS 配置、/etc/hosts 文件或网络设置

    2)HTTPS 证书问题:数据存储服务的 SSL/TLS 证书无效、过期或不被信任

    3)网络连接不通:项目节点无法连接到数据存储服务,可能是防火墙阻止、网络配置错误或数据存储服务不可用

    85面向组件bi-engine-worker、bi-engine-master

    原因分析:数据存储服务的资源存在问题,导致worker或master启动失败

    排查方向:

    1)检查FineBI的数据存储服务配置是否正确

    2)检查数据存储服务中相关的存储桶(Bucket)或对象(Object)是否存在并正常可访问

    86面向组件bi-engine-worker、bi-engine-master

    原因分析:数据存储服务的权限存在问题,导致worker或master启动失败

    排查方向:

    1)检查使用的数据存储服务的 AWS 凭证(IAM 用户/角色)是否有足够权限访问S3资源

    2)检查数据存储服务的 Region 是否正确,有可能配置的 AWS 区域与存储桶实际所在的区域不匹配

    87面向组件bi-engine-worker、bi-engine-master

    原因分析:数据存储服务的网络存在问题,导致worker或master启动失败

    排查方向:

    1)IP 或域名解析失败:系统可能无法解析数据存储服务的域名或 IP 地址,请检查 DNS 配置、/etc/hosts 文件或网络设置

    2)HTTPS 证书问题:数据存储服务的 SSL/TLS 证书无效、过期或不被信任

    88面向组件bi-engine-master

    原因分析:在启动 Master 节点时,其元数据参数配置存在问题,导致启动失败

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    89面向组件bi-engine-worker

    原因分析:worker无法正常与master通信,导致worker启动失败

    解决方案:请排查master是否启动,或master端口是否正确

    90面向组件bi-engine-worker

    原因分析:由于spark参数错误导致spark启动失败,继而导致worker启动失败

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    137

    面向组件bi-engine-worker

    原因分析:worker组件的探活monitor退出容器进程被通过kill 9终止(即发送SIGKILL信号)

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 


    面向组件bi-web、fr、fdl、bi-engine-master

    原因分析:容器被强制终止,容器进程被通过kill 9终止(即发送SIGKILL信号),通常由系统OOM Killer触发(内存不足终止机制)

    解决方案:建议进行系统巡检,并参考巡检值,对相关组件的可用内存上限进行调整

    143

    面向组件:所有组件

    原因分析:容器进程被通过kill 15终止(即发送 SIGTERM 信号)

    解决方案:此种情况一般是服务器用户使用命令(如docker stop、docker restart)手动重启了容器

    254面向组件bi-engine-worker、bi-engine-master

    原因分析:由于找不到polars的日志配置文件,导致worker或master启动失败

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    255面向组件bi-engine-worker、bi-engine-master

    原因分析:worker或master在启动过程中遇到了预期外的异常

    解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 

    系统退出码

    以下是操作系统和 Shell 中常见的退出码的含义,是行业通用的退出码,非帆软独有。

    退出码
    说明
    0

    含义:成功

    说明:这是标准约定,几乎所有程序在正常结束时返回 0

    1

    含义:一般错误(General Error)

    说明:通用失败代码,通常表示未明确分类的错误(如文件打开失败、逻辑错误等)

    2

    含义:错误用法(Invalid Usage)

    说明:常见于命令行工具参数错误(如缺少必填参数、无效选项等)

    64~78

    含义:自定义命令错误码。

    说明:供开发者自定义的错误,即为上文帆软定义的业务退出码

    126

    含义:命令不可执行(Command Not Executable)

    说明:Shell 找到命令文件,但权限不足

    127

    含义:命令未找到(Command Not Found)

    说明:Shell 在 PATH 中找不到命令文件

    128+N含义进程被信号终止(Fatal Error Signal N

    说明:当进程因信号(如 SIGINT、SIGKILL)终止时,Shell 会返回 128 + 信号编号

    • 130 = SIGINT(2 + 128):用户按下 Ctrl+C 中断进程。

    • 137 = SIGKILL(9 + 128):进程被强制终止(kill -9)



    附件列表


    主题: 项目管理
    • 有帮助
    • 没帮助
    • 只是浏览
    中文(简体)

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持