1. 概述
1.1 版本
| 运维平台版本 | 功能变更 |
|---|---|
| V2.35.0 | - |
1.2 应用场景
深度巡检是运维平台为 FineBI 工程提供的一键式架构稳定性与性能诊断工具。
通过自动采集 90 天长周期运维数据,生成包含基建诊断、稳定性分析和性能评估的专业 HTML 诊断报告,并支持导出结构化明细资料包供 AI 深度解析。
帮助运维人员将原本需要 4 到 8 小时的专家人工诊断工作,缩短为分钟级操作。
2. 适用范围
深度巡检功能仅在以下条件下可用:工程版本为 FineBI 6.1 或 7.0 且 工程通过运维平台部署
FineReport工程、FineDataLink工程及非运维平台部署的 FineBI 工程均不支持此功能
3. 功能使用
3.1 功能入口
管理员登录运维平台,单击目标 FineBI 工程卡片进入项目详情页。单击「健康巡检 > 深度巡检」。

3.2 执行深度巡检
首次巡检
单击「开始巡检」,请耐心等待巡检任务完成,页面自动展示诊断报告,并在报告下方显示巡检记录条目。

重新巡检
当需要获取最新的诊断数据时,在诊断报告页面底部,单击「重新诊断」,重新执行深度巡检。

3.3 查看诊断报告
巡检完毕后,支持直接查看完整的诊断报告。

3.4 导出诊断报告
深度巡检支持导出到本地查看。支持两种导出方式,满足离线查看与 AI 深度分析的不同需求。
注:明细资料包如果超过 100 MB,系统默认保留最近 5 份,超限时自动删除历史最早版本。
导出 HTML 诊断报告
HTML 报告为自包含的静态文件,支持离线查看,无需网络环境。
1)在巡检报告列表中,找到目标巡检记录条目。
2)单击「下载 html」,浏览器自动下载 HTML 诊断报告文件。
下载的 HTML 文件可在任何浏览器中直接打开,完整展示诊断报告的所有图表和分析内容。

导出明细资料包
明细资料包包含结构化的元数据和时序明细数据,供 AI 平台或专业工具进行深度分析。
1)在巡检报告列表中,找到目标巡检记录条目。
2)单击「下载明细资料包」,浏览器自动下载 ZIP 压缩包。

3)资料包解压后,文件说明如下:
| 文件夹 | 文件 | 说明 |
|---|---|---|
| details | 30d_alert_detail.csv | 30 天内所有告警事件流水 |
| 30d_performance_details.json | 30天内宿主机和应用节点CPU/MEM/GC/线程和连接池等基础监控指标流水 | |
| metadata | apm_summary.json | APM 汇总:QPM 趋势、增长率、容量预测指标 |
| cluster_topology.json | 集群架构拓扑:物理规格、Limit、JVM 参数快照 | |
| performance_diagnostic_matrix.json | 性能诊断矩阵:30 天聚合指标与告警汇总 |
4. 诊断报告详解
诊断报告从整体诊断摘要到各模块详细分析依次排列,确保信息层次清晰、便于快速阅读和后续程序解析。
报告顶部信息
报告顶部显示项目基本信息:
集群节点数量
报告生成时间
![]()
集群架构拓扑
此模块展示当前工程的集群部署架构,帮助运维人员快速了解节点分布与资源分配情况。
报告展示以下信息:
工程版本与镜像信息
集群组件构成(如 2biweb + 1bimaster + 2biworker + 1biminio)
数据采集时间
各组件角色说明
每台宿主机上运行的容器及其资源配置(容器最大可用 CPU、容器最大可用内存、JVM Xmx、DirectMemory)

集群宿主机资源分配总览
此模块基于容器最大可用 CPU 和内存的汇总分配率,直观展示各宿主机的资源分配是否合理。当分配率超过 100% 时,表示存在超分配风险。
每台宿主机展示以下信息:
宿主机 IP 地址与物理规格(总 CPU 核数 / 总内存)
CPU 分配率:已分配最大可用 CPU 总和 / 物理 CPU 总量。超过 100% 时以红色标注并显示超限百分比
内存分配率:已分配最大可用内存总和 / 物理内存总量。根据使用率以绿色(正常)、橙色(偏高)、红色(超限)标注
该宿主机上运行的容器列表

QPM 日峰值增长轨迹
此模块展示近 90 天的每分钟查询数(QPM)趋势,帮助运维人员评估业务增长对系统容量的影响,判断是否需要扩容。
报告展示以下信息:
近 24h 并发请求峰值(QPM)
90 天增幅:与 90 天前首周均值的增长百分比
QPM / 天增速:线性回归拟合的日均增长量
趋势图:折线图展示每日 QPM 峰值,红色虚线展示线性回归趋势,绿色柱状图展示日活用户数峰值
当 90 天增幅超过 30% 且近期有触限趋势时,系统标记为"需关注",提示运维人员提前做好容量规划。

宿主机负载健康诊断矩阵
此模块通过矩阵式布局,对所有宿主机的 CPU 和内存负载进行横向对比,帮助运维人员快速定位负载最高的宿主机。
矩阵中每个宿主机卡片展示三个维度的统计指标(基于近 30 天数据):
均值:30 天内每日 P95 均值的平均值,反映常态化负载水平
峰值:30 天内单日绝对峰值的最高值,反映瞬时压力
P95:30 天内每日 P95 最高值(Max of Daily P95),反映极限负载水平
节点状态根据 P95 指标和告警次数判定:
严重风险:P95 ≥ 90% 或告警次数 ≥ 5 次,标红
需关注:P95 在 70% 到 90% 之间或告警次数在 1 到 5 次,标黄
正常指标:其他情况,标绿
应用节点负载健康矩阵
此模块将所有应用实例按业务角色分组(bi-web、bi-worker、bi-master 等),实现同类应用间的性能横向对比。
矩阵顶部提供三个快捷筛选标签:
「全部节点」:默认视图,展示所有应用节点状态
「告警节点」:一键过滤出状态为"严重"的节点
「高负载」:过滤出 P95 指标超过 75% 的节点,用于主动发现潜在性能瓶颈
应用节点的内存 P95 指标采用 FGC 后老年代的占用比计算,更准确地反映真实内存使用水位。
告警审计
此模块汇总近 30 天的服务器、应用和组件告警信息,按三个核心架构域分类展示:
服务器告警
应用告警
组件告警
每类告警展示告警规则、触发条件、涉及节点、告警次数、最近告警时间和当前状态。右上角显示告警总数汇总标签。
具体告警条目的详细信息和时间序列,需前往「项目管理 > 告警 > 告警记录」查看。
5. 诊断结论解读
诊断报告中的风险状态分为三个等级,对应不同的处理紧迫程度:
| 状态等级 | 含义 | 建议动作 |
|---|---|---|
| 严重风险 | 系统当前处于非稳态或存在崩塌风险,负载可能已触及物理瓶颈 | 立即处理,启动硬件扩容或参数调优 |
| 需关注 | 系统存在配置缺陷或性能劣化趋势,暂无宕机风险但存在隐患 | 本周跟进,排查单点故障或资源冗余不足问题 |
| 正常指标 | 指标符合最佳实践,运行处于基准线内 | 持续监控,无需额外操作 |
基建核心问题诊断项
| 检查项 | 严重风险判定 | 需关注判定 | 正常指标判定 |
|---|---|---|---|
| 资源超分配比 | 容器 Limit 总和 > 宿主机总量 | — | 容器 Limit 总和 ≤ 宿主机总量 |
| 硬件规格达标 | — | 物理内存 < 64 GB | 物理内存 ≥ 64 GB |
| 存储水位监控 | 磁盘使用率 > 85% 或近 30 天告警 > 1 次 | 使用率在 75% 到 85% 之间 | 使用率 < 75% |
| 节点高可用 | — | biweb 或 biworker 节点数 < 2(存在单点) | biweb ≥ 2 且 biworker ≥ 2 |
稳定性核心问题诊断项
| 检查项 | 严重风险判定 | 需关注判定 | 正常指标判定 |
|---|---|---|---|
| 宿主机 CPU 负载 | 30 天 P95 > 90% 或告警 > 5 次 | 30 天 P95 在 80% 到 90% 之间或告警 > 2 次 | 30 天 P95 < 80% |
| 宿主机内存负载 | 30 天 P95 > 90% 或告警 > 5 次 | 30 天 P95 在 80% 到 90% 之间或告警 > 2 次 | 30 天 P95 < 80% |
| 核心应用内存 | JVM Heap P95 > 90% 或告警 > 5 次 | JVM Heap P95 在 80% 到 90% 之间或告警 > 2 次 | JVM Heap P95 < 80% |
| 核心应用 CPU | JVM Heap P95 > 90% 且告警 > 5 次 | JVM Heap P95 在 80% 到 90% 之间或告警 > 2 次 | JVM Heap P95 < 80% |
| 组件健康状态 | 关键组件心跳中断告警 > 1 次 | 组件曾出现偶发抖动 | 核心组件心跳 100% 存活 |
性能阻塞分析诊断项
| 检查项 | 严重风险判定 | 需关注判定 | 正常指标判定 |
|---|---|---|---|
| 访问体验(Apdex) | 前一天 Apdex ≤ 96% | Apdex 在 96% 到 98% 之间 | Apdex ≥ 98% |
| 更新甘特图阻塞 | 白天存在批量阻塞且子任务 > 1 万 | 任务耗时长但未造成大面积阻塞 | 任务执行流畅、无堆积 |
| 趋势预测(QPM) | — | 90 天增幅 > 30% 且 60 天内触限 | 增长平稳且容量余量充足 |
6. 常见问题
深度巡检标签页未显示
检查以下条件是否全部满足:工程版本为 FineBI 6.1 或 7.0;工程通过运维平台部署。
以上任一条件不满足时,深度巡检标签页不会展示。
单击「开始巡检」后提示无法执行
同一工程同一时间只能运行一个深度巡检任务。如果已有巡检任务正在执行,需等待当前任务完成后再发起新的巡检。
导出的 HTML 报告在浏览器中打开后图表不显示
HTML 报告为自包含文件,内联了所有 CSS 和 JS,正常情况下离线即可查看。
如果图表不显示,请检查浏览器是否禁用了 JavaScript,或尝试使用 Chrome 88 及以上版本浏览器打开。
明细资料包下载后解压失败
请确认下载的 ZIP 文件完整,文件大小不为 0。如果网络不稳定导致下载中断,请重新下载。
宿主机资源分配总览中 CPU 分配率超过 100%
CPU 分配率超过 100% 表示容器 CPU Limit 的总和超过了宿主机物理 CPU 总量,即存在资源超分配。
容器化环境中 CPU Limit 超分配是常见现象,系统通过 CPU 时间片共享机制调度。
但超分配比例过高时,在高负载场景下可能导致 CPU 争抢和性能下降,建议重新规划集群节点分布或扩容物理机。
