组件事件及退出码排查指南- FineOps帮助文档

文档创建者：Carly

历史版本：6

最近更新：Carly 于 2026-01-30

概述

版本

运维平台版本	功能变更
V2.16.0	支持查看组件的「事件」
V2.22.0	对于「die」类型事件，新增退出码记录，方便定位宕机原因
V2.31.0	新增部分退出码

应用场景

在运维平台的项目管理中，管理员可在「组件管理>事件」中查看容器近7天发生的事件。

查看组件事件

1）管理员登录运维平台，点击指定项目，进入「维护>组件管理」

2）点击对应组件的「事件」按钮，支持查看组件事件。

仅保留近7天的事件
支持展示事件的「容器组名」、「事件类型」、「节点」、「发生时间」

3）支持的事件类型包括：

事件类型	说明
start	启动容器
health_status: healthy	容器健康检查通过
health_status: unhealthy	容器健康检查失败
stop	手动停止容器
kill	强制杀死容器
die	容器进程退出，停止运行

die类型事件退出码

退出码是程序结束运行时返回给系统的数字，用于表示程序执行的结果状态。

对于「die」类型事件，运维平台支持查看退出码，本文详细介绍相关退出码含义。

业务退出码

即帆软对自身应用和引擎组件定义的退出码。

退出码	说明
65	面向组件：bi-engine-worker 原因分析：worker组件退出，但此时worker组件的探活monitor未能获取到其退出码解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助
66	面向组件：bi-engine-worker 原因分析：bi引擎组件的重启是有顺序性要求的，必须先启动master再启动worker。如果没有按照顺序依次启动master和worker组件，worker检测到自身状态异常后会自动下线，此时就会出现该退出码解决方案： 1）对于6.1.4及以上版本的FineBI，出现此情况后无需用户手动操作，运维平台会自动按顺序重启worker容器，以恢复计算引擎的正常运行，耐心等待即可 2）对于6.1.3及以下版本的FineBI，请手动停止全部master和worker组件，启动master组件至running状态三分钟（等待healthy），再启动全部worker组件
72	面向组件：bi-engine-master 原因分析：面向部署了高可用master的FineBI项目，如果master容器失去了leader身份，系统会强制其退出（exit），以确保一致性解决方案：产品正常逻辑，无需手动处理
79	面向组件：bi-engine-worker、bi-engine-master 原因分析：容器进程被通过kill 15终止（即发送 SIGTERM 信号）解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助
80	面向组件：bi-engine-worker、bi-engine-master 原因分析：容器进程被通过kill 9终止（即发送SIGKILL信号），通常由系统OOM Killer触发（内存不足终止机制）解决方案：建议进行系统巡检，并参考巡检值，对相关组件的可用内存上限进行调整
81	面向组件：bi-engine-worker 原因分析：由于 GC 或环境因素，导致worker卡住，从而引发心跳超时，导致worker退出解决方案： 1）如果是垃圾回收（GC）导致，请优化 JVM 参数或减少内存负载 2）如果是环境因素导致，需要根据系统日志定位根本原因，无常规排查方案
84	面向组件：bi-engine-worker、bi-engine-master 原因分析：数据存储服务的组件初始化失败，导致worker或master启动失败排查方向： 1）IP 或域名解析失败：系统可能无法解析数据存储服务的域名或 IP 地址，请检查 DNS 配置、/etc/hosts 文件或网络设置 2）HTTPS 证书问题：数据存储服务的 SSL/TLS 证书无效、过期或不被信任 3）网络连接不通：项目节点无法连接到数据存储服务，可能是防火墙阻止、网络配置错误或数据存储服务不可用
85	面向组件：bi-engine-worker、bi-engine-master 原因分析：数据存储服务的资源存在问题，导致worker或master启动失败排查方向： 1）检查FineBI的数据存储服务配置是否正确 2）检查数据存储服务中相关的存储桶(Bucket)或对象(Object)是否存在并正常可访问
86	面向组件：bi-engine-worker、bi-engine-master 原因分析：数据存储服务的权限存在问题，导致worker或master启动失败排查方向： 1）检查使用的数据存储服务的 AWS 凭证（IAM 用户/角色）是否有足够权限访问S3资源 2）检查数据存储服务的 Region 是否正确，有可能配置的 AWS 区域与存储桶实际所在的区域不匹配
87	面向组件：bi-engine-worker、bi-engine-master 原因分析：数据存储服务的网络存在问题，导致worker或master启动失败排查方向： 1）IP 或域名解析失败：系统可能无法解析数据存储服务的域名或 IP 地址，请检查 DNS 配置、/etc/hosts 文件或网络设置 2）HTTPS 证书问题：数据存储服务的 SSL/TLS 证书无效、过期或不被信任
88	面向组件：bi-engine-master 原因分析：在启动 Master 节点时，其元数据参数配置存在问题，导致启动失败解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助
89	面向组件：bi-engine-worker 原因分析：worker无法正常与master通信，导致worker启动失败解决方案：请排查master是否启动，或master端口是否正确
90	面向组件：bi-engine-worker 原因分析：由于spark参数错误导致spark启动失败，继而导致worker启动失败解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助
137	面向组件：bi-engine-worker 原因分析：worker组件的探活monitor退出，容器进程被通过kill 9终止（即发送SIGKILL信号）解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助面向组件：bi-web、fr、fdl、bi-engine-master 原因分析：容器被强制终止，容器进程被通过kill 9终止（即发送SIGKILL信号），通常由系统OOM Killer触发（内存不足终止机制）解决方案：建议进行系统巡检，并参考巡检值，对相关组件的可用内存上限进行调整
143	面向组件：所有组件原因分析：容器进程被通过kill 15终止（即发送 SIGTERM 信号）解决方案：此种情况一般是服务器用户使用命令（如docker stop、docker restart）手动重启了容器
254	面向组件：bi-engine-worker、bi-engine-master 原因分析：由于找不到polars的日志配置文件，导致worker或master启动失败解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助
255	面向组件：bi-engine-worker、bi-engine-master 原因分析：worker或master在启动过程中遇到了预期外的异常解决方案：此种情况下无常规排查方案，建议联系帆软技术支持协助

系统退出码

以下是操作系统和 Shell 中常见的退出码的含义，是行业通用的退出码，非帆软独有。

退出码	说明
0	含义：成功说明：这是标准约定，几乎所有程序在正常结束时返回 0
1	含义：一般错误（General Error）说明：通用失败代码，通常表示未明确分类的错误（如文件打开失败、逻辑错误等）
2	含义：错误用法（Invalid Usage）说明：常见于命令行工具参数错误（如缺少必填参数、无效选项等）
64~78	含义：自定义命令错误码。说明：供开发者自定义的错误，即为上文帆软定义的业务退出码
126	含义：命令不可执行（Command Not Executable）说明：Shell 找到命令文件，但权限不足
127	含义：命令未找到（Command Not Found）说明：Shell 在 PATH 中找不到命令文件
128+N	含义：进程被信号终止（Fatal Error Signal N）说明：当进程因信号（如 SIGINT、SIGKILL）终止时，Shell 会返回 128 + 信号编号 130 = SIGINT（2 + 128）：用户按下 Ctrl+C 中断进程。 137 = SIGKILL（9 + 128）：进程被强制终止（kill -9）

上一篇：开发者模式

下一篇：文件管理

有帮助
没帮助
只是浏览

English 中文（繁體）

中文（简体）

退出码	说明
0	含义：成功说明：这是标准约定，几乎所有程序在正常结束时返回 0
1	含义：一般错误（General Error）说明：通用失败代码，通常表示未明确分类的错误（如文件打开失败、逻辑错误等）
2	含义：错误用法（Invalid Usage）说明：常见于命令行工具参数错误（如缺少必填参数、无效选项等）
64~78	含义：自定义命令错误码。说明：供开发者自定义的错误，即为上文帆软定义的业务退出码
126	含义：命令不可执行（Command Not Executable）说明：Shell 找到命令文件，但权限不足
127	含义：命令未找到（Command Not Found）说明：Shell 在 PATH 中找不到命令文件
128+N	含义：进程被信号终止（Fatal Error Signal N）说明：当进程因信号（如 SIGINT、SIGKILL）终止时，Shell 会返回 128 + 信号编号 130 = SIGINT（2 + 128）：用户按下 Ctrl+C 中断进程。 137 = SIGKILL（9 + 128）：进程被强制终止（kill -9）

组件事件及退出码排查指南

概述

版本

应用场景

查看组件事件

die类型事件退出码

业务退出码

系统退出码

附件列表