概述
版本
| 运维平台版本 | 功能变更 |
|---|---|
| V2.16.0 | 支持查看组件的「事件」 |
| V2.22.0 | 对于「die」类型事件,新增退出码记录,方便定位宕机原因 |
| V2.31.0 | 新增部分退出码 |
应用场景
在运维平台的项目管理中,管理员可在「组件管理>事件」中查看容器近7天发生的事件。
查看组件事件
1)管理员登录运维平台,点击指定项目,进入「维护>组件管理」
2)点击对应组件的「事件」按钮,支持查看组件事件。
仅保留近7天的事件
支持展示事件的「容器组名」、「事件类型」、「节点」、「发生时间」
3)支持的事件类型包括:
| 事件类型 | 说明 |
|---|---|
| start | 启动容器 |
| health_status: healthy | 容器健康检查通过 |
| health_status: unhealthy | 容器健康检查失败 |
| stop | 手动停止容器 |
| kill | 强制杀死容器 |
| die | 容器进程退出,停止运行 |

die类型事件退出码
退出码是程序结束运行时返回给系统的数字,用于表示程序执行的结果状态。
对于「die」类型事件,运维平台支持查看退出码,本文详细介绍相关退出码含义。

业务退出码
即帆软对自身应用和引擎组件定义的退出码。
| 退出码 | 说明 |
|---|---|
| 65 | 面向组件:bi-engine-worker 原因分析:worker组件退出,但此时worker组件的探活monitor未能获取到其退出码 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
| 66 | 面向组件:bi-engine-worker 原因分析:bi引擎组件的重启是有顺序性要求的,必须先启动master再启动worker。如果没有按照顺序依次启动master和worker组件,worker检测到自身状态异常后会自动下线,此时就会出现该退出码 解决方案: 1)对于6.1.4及以上版本的FineBI,出现此情况后无需用户手动操作,运维平台会自动按顺序重启worker容器,以恢复计算引擎的正常运行,耐心等待即可 2)对于6.1.3及以下版本的FineBI,请手动停止全部master和worker组件,启动master组件至running状态三分钟(等待healthy),再启动全部worker组件 |
| 72 | 面向组件:bi-engine-master 原因分析:面向部署了高可用master的FineBI项目,如果master容器失去了leader身份,系统会强制其退出(exit),以确保一致性 解决方案:产品正常逻辑,无需手动处理 |
| 79 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:容器进程被通过kill 15终止(即发送 SIGTERM 信号) 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
| 80 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:容器进程被通过kill 9终止(即发送SIGKILL信号),通常由系统OOM Killer触发(内存不足终止机制) 解决方案:建议进行系统巡检,并参考巡检值,对相关组件的可用内存上限进行调整 |
| 81 | 面向组件:bi-engine-worker 原因分析:由于 GC 或环境因素,导致worker卡住,从而引发心跳超时,导致worker退出 解决方案: 1)如果是垃圾回收(GC)导致,请优化 JVM 参数或减少内存负载 2)如果是环境因素导致,需要根据系统日志定位根本原因,无常规排查方案 |
| 84 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:数据存储服务的组件初始化失败,导致worker或master启动失败 排查方向: 1)IP 或域名解析失败:系统可能无法解析数据存储服务的域名或 IP 地址,请检查 DNS 配置、/etc/hosts 文件或网络设置 2)HTTPS 证书问题:数据存储服务的 SSL/TLS 证书无效、过期或不被信任 3)网络连接不通:项目节点无法连接到数据存储服务,可能是防火墙阻止、网络配置错误或数据存储服务不可用 |
| 85 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:数据存储服务的资源存在问题,导致worker或master启动失败 排查方向: 1)检查FineBI的数据存储服务配置是否正确 2)检查数据存储服务中相关的存储桶(Bucket)或对象(Object)是否存在并正常可访问 |
| 86 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:数据存储服务的权限存在问题,导致worker或master启动失败 排查方向: 1)检查使用的数据存储服务的 AWS 凭证(IAM 用户/角色)是否有足够权限访问S3资源 2)检查数据存储服务的 Region 是否正确,有可能配置的 AWS 区域与存储桶实际所在的区域不匹配 |
| 87 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:数据存储服务的网络存在问题,导致worker或master启动失败 排查方向: 1)IP 或域名解析失败:系统可能无法解析数据存储服务的域名或 IP 地址,请检查 DNS 配置、/etc/hosts 文件或网络设置 2)HTTPS 证书问题:数据存储服务的 SSL/TLS 证书无效、过期或不被信任 |
| 88 | 面向组件:bi-engine-master 原因分析:在启动 Master 节点时,其元数据参数配置存在问题,导致启动失败 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
| 89 | 面向组件:bi-engine-worker 原因分析:worker无法正常与master通信,导致worker启动失败 解决方案:请排查master是否启动,或master端口是否正确 |
| 90 | 面向组件:bi-engine-worker 原因分析:由于spark参数错误导致spark启动失败,继而导致worker启动失败 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
| 137 | 面向组件:bi-engine-worker 原因分析:worker组件的探活monitor退出,容器进程被通过kill 9终止(即发送SIGKILL信号) 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 面向组件:bi-web、fr、fdl、bi-engine-master 原因分析:容器被强制终止,容器进程被通过kill 9终止(即发送SIGKILL信号),通常由系统OOM Killer触发(内存不足终止机制) 解决方案:建议进行系统巡检,并参考巡检值,对相关组件的可用内存上限进行调整 |
| 143 | 面向组件:所有组件 原因分析:容器进程被通过kill 15终止(即发送 SIGTERM 信号) 解决方案:此种情况一般是服务器用户使用命令(如docker stop、docker restart)手动重启了容器 |
| 254 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:由于找不到polars的日志配置文件,导致worker或master启动失败 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
| 255 | 面向组件:bi-engine-worker、bi-engine-master 原因分析:worker或master在启动过程中遇到了预期外的异常 解决方案:此种情况下无常规排查方案,建议联系帆软技术支持协助 |
系统退出码
以下是操作系统和 Shell 中常见的退出码的含义,是行业通用的退出码,非帆软独有。
| 退出码 | 说明 |
|---|---|
| 0 | 含义:成功 说明:这是标准约定,几乎所有程序在正常结束时返回 0 |
| 1 | 含义:一般错误(General Error) 说明:通用失败代码,通常表示未明确分类的错误(如文件打开失败、逻辑错误等) |
| 2 | 含义:错误用法(Invalid Usage) 说明:常见于命令行工具参数错误(如缺少必填参数、无效选项等) |
| 64~78 | 含义:自定义命令错误码。 说明:供开发者自定义的错误,即为上文帆软定义的业务退出码 |
| 126 | 含义:命令不可执行(Command Not Executable) 说明:Shell 找到命令文件,但权限不足 |
| 127 | 含义:命令未找到(Command Not Found) 说明:Shell 在 PATH 中找不到命令文件 |
| 128+N | 含义:进程被信号终止(Fatal Error Signal N) 说明:当进程因信号(如 SIGINT、SIGKILL)终止时,Shell 会返回 128 + 信号编号
|
