1. 概述
1.1 版本
| 运维平台版本 | 功能变更 |
|---|---|
| V2.35.0 | - |
| V2.36.0 | 新增体检报告核心诊断摘要、内置规则引擎、Apdex 可用性指数模块、AI 深度诊疗引导 |
1.2 应用场景
深度巡检是运维平台为 FineBI 工程提供的一键式架构稳定性与性能诊断工具。
通过自动采集 90 天长周期运维数据,内置规则引擎对 12 项关键健康指标进行自动判定,生成包含基建诊断、稳定性分析和性能评估的专业 HTML 诊断报告,并支持导出结构化明细资料包供 AI 深度解析。
帮助运维人员将原本需要 4 到 8 小时的专家人工诊断工作,缩短为分钟级操作。
2. 适用范围
深度巡检功能仅在以下条件下可用:工程版本为 FineBI 6.1 或 7.0 且 工程通过运维平台部署
FineReport工程、FineDataLink工程及非运维平台部署的 FineBI 工程均不支持此功能
3. 功能使用
3.1 功能入口
管理员登录运维平台,单击目标 FineBI 工程卡片进入项目详情页。单击「健康巡检 > 深度巡检」。

3.2 执行深度巡检
首次巡检
单击「开始巡检」,请耐心等待巡检任务完成,页面自动展示诊断报告,并在报告下方显示巡检记录条目。

重新巡检
当需要获取最新的诊断数据时,可重新执行深度巡检。在诊断报告页面底部,单击「重新诊断」,重新执行深度巡检。

3.3 查看诊断报告
巡检完毕后,支持直接在运维平台页面查看完整的诊断报告。报告包含以下核心模块:
体检报告核心诊断摘要:规则引擎自动汇总 12 项关键健康检查结论
环境 & 应用基建诊断:集群架构拓扑、资源分配总览、QPM 趋势
稳定性问题诊断:宿主机与应用负载矩阵、告警审计
性能问题诊断:Apdex 可用性指数

3.4 导出诊断报告
深度巡检支持导出到本地查看。支持两种导出方式,满足离线查看与 AI 深度分析的不同需求。
注:明细资料包如果超过 100 MB,系统默认保留最近 5 份,超限时自动删除历史最早版本。
导出 HTML 诊断报告
HTML 报告为自包含的静态文件,支持离线查看,无需网络环境。
1)在巡检报告列表中,找到目标巡检记录条目。
2)单击「下载 html」,浏览器自动下载 HTML 诊断报告文件。
下载的 HTML 文件可在任何浏览器中直接打开,完整展示诊断报告的所有图表、诊断结论和 AI 引导提示。

导出明细资料包
明细资料包包含结构化的元数据和时序明细数据,供 AI 平台或专业工具进行深度分析。
1)在巡检报告列表中,找到目标巡检记录条目。
2)单击「下载明细资料包」,浏览器自动下载 ZIP 压缩包。

3)资料包解压后,文件说明如下:
| 文件夹 | 文件 | 说明 |
|---|---|---|
| details | 30d_alert_detail.csv | 30 天内所有告警事件流水 |
| 30d_performance_details.json | 30天内宿主机和应用节点CPU/MEM/GC/线程和连接池等基础监控指标流水 | |
| metadata | apm_summary.json | APM 汇总:QPM 趋势、增长率、容量预测指标 |
| cluster_topology.json | 集群架构拓扑:物理规格、Limit、JVM 参数快照 | |
| performance_diagnostic_matrix.json | 性能诊断矩阵:30 天聚合指标与告警汇总 |
4. 诊断报告详解
诊断报告从整体诊断摘要到各模块详细分析依次排列,确保信息层次清晰、便于快速阅读和后续程序解析。
4.1 报告顶部信息
报告顶部显示项目基本信息,帮助运维人员快速了解巡检范围。
集群节点数量
报告生成时间
![]()
4.2 体检报告核心诊断摘要
此模块为诊断报告的首屏核心区域,基于内置规则引擎对 12 项关键健康检查的自动汇总结果,帮助运维人员在深入查看底层图表之前,先对系统当前的健康定性形成直观认知。
顶部数字看板
显示「严重风险」「需关注」「正常指标」三项累计数量(如 1 严重 + 2 需关注 + 9 正常 = 共 12 项检查),三者之和等于总检查项数。
三列诊断卡片
按三大诊断模块分区展示:
基础性问题诊断(4 项):资源超分配比、硬件规格达标、节点高可用、存储水位监控
稳定性核心问题诊断(7 项):应用可用性健康度、宿主机负载-CPU、宿主机负载-内存、核心应用负载-CPU、核心应用负载-内存、JVM 线程池健康度、组件健康状态
性能阻塞分析(1 项):访问体验 Apdex
每个模块卡片的整体状态由内部最高风险项决定(包含严重项则卡片标红,包含需关注项则卡片标橙,全正常则标绿)。
检查项明细卡片
每项检查单独一张卡片,包含三个要素:
1)状态标签(红色-严重、橙色-需关注、绿色-正常)
2)检查项名称(灰色弱化显示,如「节点高可用」)
3)诊断结论摘要(直接点明问题现象及潜在影响)
当同一检查项涉及多个节点时,标题处标注影响面(如「核心应用负载-内存 · 1台严重,1台需关注」),卡片内容只展示最高风险节点的详情,避免信息冗余。
AI 深度诊疗引导
摘要底部固定展示提示:本地初诊仅基于基础规则进行健康度定性评估。如需跨维度关联分析(如:更新影响查询原因定位、查询性能同 QPM 增长趋势关联变化、获取系统架构调优方案),建议导出明细资料包进行深度分析

4.3 集群架构拓扑
此模块展示当前工程的集群部署架构,帮助运维人员快速了解节点分布与资源分配情况。
报告展示以下信息:
工程版本与镜像信息
集群组件构成(如 2biweb + 1bimaster + 2biworker + 1biminio)
数据采集时间
各组件角色说明
每台宿主机上运行的容器及其资源配置(容器最大可用 CPU、容器最大可用内存、JVM Xmx、DirectMemory)
拓扑图下方展示内置引擎诊断结论,对应检查项「节点高可用」:
若命中警告:显示黄色「需关注」标签及文案「组件当前为单点部署,若发生节点级故障可能影响整体可用性,建议增加节点以满足高可用架构要求」
若未命中:显示绿色「正常」标签及文案「核心主应用组件均满足多节点高可用部署要求」

4.4 集群宿主机资源分配总览
此模块基于容器最大可用 CPU 和内存的汇总分配率,直观展示各宿主机的资源分配是否合理。当分配率超过 100% 时,表示存在超分配风险。
每台宿主机展示以下信息:
宿主机 IP 地址与物理规格(总 CPU 核数 / 总内存)
CPU 分配率:已分配最大可用 CPU 总和 / 物理 CPU 总量。超过 100% 时以红色标注并显示超限百分比
内存分配率:已分配最大可用内存总和 / 物理内存总量。根据使用率以绿色(正常)、橙色(偏高)、红色(超限)标注
该宿主机上运行的容器列表
资源分配进度条卡片下方展示诊断结论,对应检查项「资源超分配比」与「硬件规格达标」:
若同时命中多条规则,优先展示级别最高的(严重 > 关注),按检查项名称排序,通过多个卡片展示
严重告警示例:「集群容器分配的资源总和已超过宿主机物理上限,可能引发资源争抢并影响系统稳定性,建议合理规划资源分配或进行扩容」

4.5 QPM 日峰值增长轨迹
此模块展示近 90 天的每分钟查询数(QPM)趋势,帮助运维人员评估业务增长对系统容量的影响,判断是否需要扩容。
报告展示以下信息:
近 24h 并发请求峰值(QPM)
90 天增幅:与 90 天前首周均值的增长百分比
QPM / 天增速:线性回归拟合的日均增长量
趋势图:折线图展示每日 QPM 峰值,红色虚线展示线性回归趋势,绿色柱状图展示日活用户数峰值
此模块偏向容量规划与趋势洞察,无直接对应的红黄告警检查项,但作为基建诊断的辅助依据。图表下方固定展示 AI 深度诊疗引导:
90天增幅 XXX,QPM/天增速 XXX,如果需要判断系统并发是否达到业务瓶颈以及未来增长余量,建议导出明细资料包进行深度诊断分析

4.6 宿主机负载健康诊断矩阵
此模块通过矩阵式布局,对所有宿主机的 CPU 和内存负载进行横向对比,帮助运维人员快速定位负载最高的宿主机。
矩阵中每个宿主机卡片展示三个维度的统计指标(基于近 30 天数据):
均值:30 天内每日 P95 均值的平均值,反映常态化负载水平
峰值:30 天内单日绝对峰值的最高值,反映瞬时压力
P95:30 天内每日 P95 最高值(Max of Daily P95),反映极限负载水平
矩阵顶部显示节点总数与状态分布(如"2个节点 + 2正常")。
节点状态根据 P95 指标和告警次数判定,对应检查项「宿主机负载-CPU」与「宿主机负载-内存」:
严重风险:P95 ≥ 90% 且告警次数 ≥ 5 次,标红
需关注:P95 在 80% 到 90% 之间或告警次数 2 到 4 次,标橙
正常指标:其他情况,标绿

4.7 TOP3 高负载宿主机
在诊断矩阵下方,提供近 30 天每日 P95 水位趋势图。
折线图每个点代表单日 P95 最高值(Max of Daily P95)
蓝线代表 CPU
紫线代表内存
红色虚线代表 90% 告警阈值。
帮助运维人员观察负载变化趋势,判断是否存在持续恶化或周期性波动。

4.8 应用节点负载健康矩阵
此模块将所有应用实例按业务角色分组(bi-web、bi-worker、bi-master 等),实现同类应用间的性能横向对比。
每个应用卡片展示 CPU 与 JVM 内存三个维度的统计指标(均值、峰值、P95),以及 FullGC 最大次数与 GC 停顿耗时。
应用节点的内存 P95 指标采用 FGC 后老年代的占用比计算,更准确地反映真实内存使用水位。
节点状态对应检查项「核心应用负载-CPU」「核心应用负载-内存」与「JVM 线程池健康度」判定。
矩阵下方展示「应用健康诊断报告」折叠面板,默认展开。严重和需关注状态支持折叠设计。

4.9 TOP3 高资源占用应用节点
在诊断矩阵下方,提供近 30 天 CPU / JVM 内存每日 P95 最高值水位趋势图。
折线图每个点代表单日 P95 最高值
蓝线代表 CPU
紫线代表 JVM 内存
红色虚线代表 90% 告警阈值

4.10 告警审计
此模块汇总近 30 天的服务器、应用和组件告警信息,按三个核心架构域分类展示:
服务器告警
应用告警
组件告警
每类告警展示告警规则、触发条件、涉及节点、告警次数、最近告警时间和当前状态。右上角显示告警总数汇总标签。
列表下方提供诊断总结论,对应检查项「存储水位监控」「应用可用性健康度」与「组件健康状态」。
前端展示时,除了总次数,增加「最近触发时间」,帮助运维人员判断该风险是否为当前正在发生的活跃风险。
具体告警条目的详细信息和时间序列,需前往「项目管理 > 告警 > 告警记录」查看。

4.11 Apdex 可用性指数
此模块为性能诊断的首屏核心视图,评估应用整体用户体验。
近 30 天日均趋势折线图实线代表每日 Apdex 综合指数的波动轨迹。红色虚线为 SLA 基线(固定在 95.00%),作为健康水位警戒线。当实线跌破红色虚线时,直观暴露性能受损日。
按月汇总的请求模式明细数据表将总请求拆分为「抽取模式」与「直连模式」,分别展示两种模式的请求数、占比以及各自的 Apdex 指数。
产品价值:帮助排查性能下降是因为底层数据库慢(直连模式 Apdex 低),还是 BI 引擎自身处理慢(抽取模式 Apdex 低)。
表格还展示最低日值与告警日:
最低日值:该月内单日 Apdex 的最低点,反映极端体验下限
告警日:该月内触发了「访问异常告警」的天数,作为访问体验检查项的输入源
节点状态诊断依据(对应检查项「访问体验 Apdex」),前端渲染逻辑如下:
严重状态:近 30 天告警日总和 ≥ 10 天,右上角强制显示红色「严重性能受损」标签。表格中对应的「告警日」单元格数字标红加粗
需关注状态:告警日处于 3 到 9 天,或最低日值跌破 95%,显示黄色「体验波动」标签
正常状态:指标平稳,显示绿色「体验良好」标签

5. 诊断结论解读
5.1 风险状态等级
诊断报告中的风险状态分为三个等级,对应不同的处理紧迫程度:
| 状态等级 | 运维定义 | 业务影响判定 | 建议动作 |
|---|---|---|---|
| 严重风险(标红) | 立即处理。系统当前处于非稳态或存在崩塌风险 | 负载可能已触及物理瓶颈,需立即处理 | 启动硬件扩容或参数调优 |
| 需关注(标黄) | 本周跟进。系统存在配置缺陷或性能劣化趋势 | 暂无宕机风险,但存在单点故障隐患或资源冗余不足 | 排查单点故障或资源冗余不足问题 |
| 正常指标(标绿) | 持续监控。指标符合最佳实践,运行处于基准线内 | 系统架构健康,关键链路连通性与性能表现极佳 | 无需额外操作 |
5.2 基建核心问题诊断项
| 检查项 | 资源粒度 | 严重风险触发条件 | 需关注触发条件 | 正常指标触发条件 |
|---|---|---|---|---|
| 资源超分配比 | 宿主机 | allocated_cpu > physical_spec.cpu_cores 或 allocated_mem_gb > physical_spec.memory_gb(非黑即白,无中间态) | — | allocated_cpu ≤ physical_spec.cpu_cores 且 allocated_mem_gb ≤ physical_spec.memory_gb |
| 硬件规格达标 | 宿主机 | —(非致命,仅提示) | physical_spec.memory_gb < 64 | physical_spec.memory_gb ≥ 64 |
| 节点高可用 | 组件 | —(非致命,仅提示) | biweb 容器数 < 2 或 biworker 容器数 < 2 | biweb 容器数 ≥ 2 且 biworker 容器数 ≥ 2 |
| 存储水位监控 | 宿主机 | 近 30 天磁盘或 Inode 使用率相关告警次数 ≥ 5 次 | 近 30 天磁盘或 Inode 使用率相关告警次数 2 到 4 次 | 近 30 天无磁盘相关告警 |
5.3 稳定性核心问题诊断项
| 检查项 | 资源粒度 | 严重风险触发条件 | 需关注触发条件 | 正常指标触发条件 |
|---|---|---|---|---|
| 应用可用性健康度 | 应用 | 近 30 天触发「系统宕机」或「引擎宕机」告警 ≥ 1 次;或触发「节点无响应」告警 ≥ 3 次 | 近 30 天触发「节点无响应」告警 1 到 2 次 | 近 30 天无任何宕机或节点无响应告警 |
| 宿主机负载-CPU | 宿主机 | Max(Daily_P95_CPU) ≥ 0.90 且 CPU 告警次数 ≥ 5 | Max(Daily_P95_CPU) ≥ 0.80 且 < 0.90;或 CPU 告警次数 2 到 4 次 | 不满足高危与需关注条件 |
| 宿主机负载-内存 | 宿主机 | Max(Daily_P95_Mem) ≥ 0.90 且内存告警次数 ≥ 5 | Max(Daily_P95_Mem) ≥ 0.80 且 < 0.90;或内存告警次数 2 到 4 次 | 不满足高危与需关注条件 |
| 核心应用负载-CPU | 应用 | Max(Daily_P95_AppCPU) ≥ 0.90 且应用 CPU 告警 ≥ 5 | Max(Daily_P95_AppCPU) ≥ 0.80 且 < 0.90;或应用 CPU 告警 2 到 4 次 | 不满足高危与需关注条件 |
| 核心应用负载-内存 | 应用 | Max(Daily_P95_AppMem) ≥ 0.90 且应用内存告警 ≥ 5 | Max(Daily_P95_AppMem) ≥ 0.80 且 < 0.90;或应用内存告警 2 到 4 次 | 不满足高危与需关注条件 |
| JVM 线程池健康度 | 应用 | 近 30 天线程池阻塞告警次数 ≥ 5 | 近 30 天线程池阻塞告警次数 2 到 4 次 | 不满足高危与需关注条件 |
| 组件健康状态 | 组件 | 近 30 天关键组件心跳中断/存活告警次数 ≥ 3 | 近 30 天关键组件心跳中断/存活告警次数 1 到 2 次 | 无组件存活类告警 |
组件健康状态涵盖的告警项包括:外置库状态异常告警、外置库连通性告警、状态服务器联通告警、状态服务器内存占用过高、状态服务器状态异常告警、文件服务器连通性告警、Nginx 状态异常告警。
5.4 性能阻塞分析诊断项
| 检查项 | 资源粒度 | 严重风险触发条件 | 需关注触发条件 | 正常指标触发条件 |
|---|---|---|---|---|
| 访问体验(Apdex) | 集群 | 近 30 天应用访问异常告警次数 ≥ 10 | 近 30 天应用访问异常告警次数 3 到 9 | 近 30 天应用访问异常告警次数 < 3 |
