FineBI深度巡检- FineOps帮助文档

文档创建者：Carly

历史版本：4

最近更新：Carly 于 2026-07-14

1. 概述

1.1 版本

运维平台版本	功能变更
V2.35.0	-
V2.36.0	新增体检报告核心诊断摘要、内置规则引擎、Apdex 可用性指数模块、AI 深度诊疗引导
V2.37.0	FineBI 深度巡检新增 Apdex（抽取 / 直连）三线趋势图与慢看板 TOP 10

1.2 应用场景

深度巡检是运维平台为 FineBI 工程提供的一键式架构稳定性与性能诊断工具。

通过自动采集 90 天长周期运维数据，内置规则引擎对 12 项关键健康指标进行自动判定，生成包含基建诊断、稳定性分析和性能评估的专业 HTML 诊断报告，并支持导出结构化明细资料包供 AI 深度解析。

帮助运维人员将原本需要 4 到 8 小时的专家人工诊断工作，缩短为分钟级操作。

2. 适用范围

深度巡检功能仅在以下条件下可用：工程版本为 FineBI 6.1 或 7.0 且工程通过运维平台部署
FineReport工程、FineDataLink工程及非运维平台部署的 FineBI 工程均不支持此功能

3. 功能使用

3.1 功能入口

管理员登录运维平台，单击目标 FineBI 工程卡片进入项目详情页。单击「健康巡检 > 深度巡检」。

3.2 执行深度巡检

首次巡检

单击「开始巡检」，请耐心等待巡检任务完成，页面自动展示诊断报告，并在报告下方显示巡检记录条目。

重新巡检

当需要获取最新的诊断数据时，可重新执行深度巡检。在诊断报告页面底部，单击「重新诊断」，重新执行深度巡检。

3.3 查看诊断报告

巡检完毕后，支持直接在运维平台页面查看完整的诊断报告。报告包含以下核心模块：

体检报告核心诊断摘要：规则引擎自动汇总 12 项关键健康检查结论
环境 & 应用基建诊断：集群架构拓扑、资源分配总览、QPM 趋势
稳定性问题诊断：宿主机与应用负载矩阵、告警审计
性能问题诊断：Apdex 可用性指数

3.4 导出诊断报告

深度巡检支持导出到本地查看。支持两种导出方式，满足离线查看与 AI 深度分析的不同需求。

注：明细资料包如果超过 100 MB，系统默认保留最近 5 份，超限时自动删除历史最早版本。

导出 HTML 诊断报告

HTML 报告为自包含的静态文件，支持离线查看，无需网络环境。

1）在巡检报告列表中，找到目标巡检记录条目。

2）单击「下载 html」，浏览器自动下载 HTML 诊断报告文件。

下载的 HTML 文件可在任何浏览器中直接打开，完整展示诊断报告的所有图表、诊断结论和 AI 引导提示。

导出明细资料包

明细资料包包含结构化的元数据和时序明细数据，供 AI 平台或专业工具进行深度分析。

1）在巡检报告列表中，找到目标巡检记录条目。

2）单击「下载明细资料包」，浏览器自动下载 ZIP 压缩包。

3）资料包解压后，文件说明如下：

文件夹	文件	说明
details	30d_alert_detail.csv	30 天内所有告警事件流水
details	30d_performance_details.json	30天内宿主机和应用节点CPU/MEM/GC/线程和连接池等基础监控指标流水
metadata	apm_summary.json	APM 汇总：QPM 趋势、增长率、容量预测指标
	cluster_topology.json	集群架构拓扑：物理规格、Limit、JVM 参数快照
	performance_diagnostic_matrix.json	性能诊断矩阵：30 天聚合指标与告警汇总

4. 诊断报告详解

诊断报告从整体诊断摘要到各模块详细分析依次排列，确保信息层次清晰、便于快速阅读和后续程序解析。

4.1 报告顶部信息

报告顶部显示项目基本信息，帮助运维人员快速了解巡检范围。

集群节点数量
报告生成时间

4.2 体检报告核心诊断摘要

此模块为诊断报告的首屏核心区域，基于内置规则引擎对 12 项关键健康检查的自动汇总结果，帮助运维人员在深入查看底层图表之前，先对系统当前的健康定性形成直观认知。

顶部数字看板

显示「严重风险」「需关注」「正常指标」三项累计数量（如 1 严重 + 2 需关注 + 9 正常 = 共 12 项检查），三者之和等于总检查项数。

三列诊断卡片

按三大诊断模块分区展示：

基础性问题诊断（4 项）：资源超分配比、硬件规格达标、节点高可用、存储水位监控
稳定性核心问题诊断（7 项）：应用可用性健康度、宿主机负载-CPU、宿主机负载-内存、核心应用负载-CPU、核心应用负载-内存、JVM 线程池健康度、组件健康状态
性能阻塞分析（1 项）：访问体验 Apdex

每个模块卡片的整体状态由内部最高风险项决定（包含严重项则卡片标红，包含需关注项则卡片标橙，全正常则标绿）。

检查项明细卡片

每项检查单独一张卡片，包含三个要素：

1）状态标签（红色-严重、橙色-需关注、绿色-正常）

2）检查项名称（灰色弱化显示，如「节点高可用」）

3）诊断结论摘要（直接点明问题现象及潜在影响）

当同一检查项涉及多个节点时，标题处标注影响面（如「核心应用负载-内存 · 1台严重，1台需关注」），卡片内容只展示最高风险节点的详情，避免信息冗余。

AI 深度诊疗引导

摘要底部固定展示提示：本地初诊仅基于基础规则进行健康度定性评估。如需跨维度关联分析（如：更新影响查询原因定位、查询性能同 QPM 增长趋势关联变化、获取系统架构调优方案），建议导出明细资料包进行深度分析

4.3 集群架构拓扑

此模块展示当前工程的集群部署架构，帮助运维人员快速了解节点分布与资源分配情况。

报告展示以下信息：

工程版本与镜像信息
集群组件构成（如 2biweb + 1bimaster + 2biworker + 1biminio）
数据采集时间
各组件角色说明
每台宿主机上运行的容器及其资源配置（容器最大可用 CPU、容器最大可用内存、JVM Xmx、DirectMemory）

拓扑图下方展示内置引擎诊断结论，对应检查项「节点高可用」：

若命中警告：显示黄色「需关注」标签及文案「组件当前为单点部署，若发生节点级故障可能影响整体可用性，建议增加节点以满足高可用架构要求」
若未命中：显示绿色「正常」标签及文案「核心主应用组件均满足多节点高可用部署要求」

4.4 集群宿主机资源分配总览

此模块基于容器最大可用 CPU 和内存的汇总分配率，直观展示各宿主机的资源分配是否合理。当分配率超过 100% 时，表示存在超分配风险。

每台宿主机展示以下信息：

宿主机 IP 地址与物理规格（总 CPU 核数 / 总内存）
CPU 分配率：已分配最大可用 CPU 总和 / 物理 CPU 总量。超过 100% 时以红色标注并显示超限百分比
内存分配率：已分配最大可用内存总和 / 物理内存总量。根据使用率以绿色（正常）、橙色（偏高）、红色（超限）标注
该宿主机上运行的容器列表

资源分配进度条卡片下方展示诊断结论，对应检查项「资源超分配比」与「硬件规格达标」：

若同时命中多条规则，优先展示级别最高的（严重 > 关注），按检查项名称排序，通过多个卡片展示
严重告警示例：「集群容器分配的资源总和已超过宿主机物理上限，可能引发资源争抢并影响系统稳定性，建议合理规划资源分配或进行扩容」

4.5 QPM 日峰值增长轨迹

此模块展示近 90 天的每分钟查询数（QPM）趋势，帮助运维人员评估业务增长对系统容量的影响，判断是否需要扩容。

报告展示以下信息：

近 24h 并发请求峰值（QPM）
90 天增幅：与 90 天前首周均值的增长百分比
QPM / 天增速：线性回归拟合的日均增长量
趋势图：折线图展示每日 QPM 峰值，红色虚线展示线性回归趋势，绿色柱状图展示日活用户数峰值

此模块偏向容量规划与趋势洞察，无直接对应的红黄告警检查项，但作为基建诊断的辅助依据。图表下方固定展示 AI 深度诊疗引导：

90天增幅 XXX，QPM/天增速 XXX，如果需要判断系统并发是否达到业务瓶颈以及未来增长余量，建议导出明细资料包进行深度诊断分析

4.6 宿主机负载健康诊断矩阵

此模块通过矩阵式布局，对所有宿主机的 CPU 和内存负载进行横向对比，帮助运维人员快速定位负载最高的宿主机。

矩阵中每个宿主机卡片展示三个维度的统计指标（基于近 30 天数据）：

均值：30 天内每日 P95 均值的平均值，反映常态化负载水平
峰值：30 天内单日绝对峰值的最高值，反映瞬时压力
P95：30 天内每日 P95 最高值（Max of Daily P95），反映极限负载水平

矩阵顶部显示节点总数与状态分布（如"2个节点 + 2正常"）。

节点状态根据 P95 指标和告警次数判定，对应检查项「宿主机负载-CPU」与「宿主机负载-内存」：

严重风险：P95 ≥ 90% 且告警次数 ≥ 5 次，标红
需关注：P95 在 80% 到 90% 之间或告警次数 2 到 4 次，标橙
正常指标：其他情况，标绿

4.7 TOP3 高负载宿主机

在诊断矩阵下方，提供近 30 天每日 P95 水位趋势图。

折线图每个点代表单日 P95 最高值（Max of Daily P95）
蓝线代表 CPU
紫线代表内存
红色虚线代表 90% 告警阈值。

帮助运维人员观察负载变化趋势，判断是否存在持续恶化或周期性波动。

4.8 应用节点负载健康矩阵

此模块将所有应用实例按业务角色分组（bi-web、bi-worker、bi-master 等），实现同类应用间的性能横向对比。

每个应用卡片展示 CPU 与 JVM 内存三个维度的统计指标（均值、峰值、P95），以及 FullGC 最大次数与 GC 停顿耗时。

应用节点的内存 P95 指标采用 FGC 后老年代的占用比计算，更准确地反映真实内存使用水位。

节点状态对应检查项「核心应用负载-CPU」「核心应用负载-内存」与「JVM 线程池健康度」判定。

矩阵下方展示「应用健康诊断报告」折叠面板，默认展开。严重和需关注状态支持折叠设计。

4.9 TOP3 高资源占用应用节点

在诊断矩阵下方，提供近 30 天 CPU / JVM 内存每日 P95 最高值水位趋势图。

折线图每个点代表单日 P95 最高值
蓝线代表 CPU
紫线代表 JVM 内存
红色虚线代表 90% 告警阈值

4.10 告警审计

此模块汇总近 30 天的服务器、应用和组件告警信息，按三个核心架构域分类展示：

服务器告警
应用告警
组件告警

每类告警展示告警规则、触发条件、涉及节点、告警次数、最近告警时间和当前状态。右上角显示告警总数汇总标签。

列表下方提供诊断总结论，对应检查项「存储水位监控」「应用可用性健康度」与「组件健康状态」。

前端展示时，除了总次数，增加「最近触发时间」，帮助运维人员判断该风险是否为当前正在发生的活跃风险。

具体告警条目的详细信息和时间序列，需前往「项目管理 > 告警 > 告警记录」查看。

4.11 Apdex 可用性指数

此模块为性能诊断的首屏核心视图，评估应用整体用户体验。

近 30 天日均趋势折线图

实线代表每日 Apdex 综合指数的波动轨迹。红色虚线为 SLA 基线（固定在 95.00%），作为健康水位警戒线。

当实线跌破红色虚线时，直观暴露性能受损日。

按月汇总的请求模式明细数据表

将总请求拆分为「抽取模式」与「直连模式」，分别展示两种模式的请求数、占比以及各自的 Apdex 指数。

产品价值：帮助排查性能下降是因为底层数据库慢（直连模式 Apdex 低），还是 BI 引擎自身处理慢（抽取模式 Apdex 低）。

表格还展示最低日值与告警日：

最低日值：该月内单日 Apdex 的最低点，反映极端体验下限
告警日：该月内触发了「访问异常告警」的天数，作为访问体验检查项的输入源

节点状态诊断依据（对应检查项「访问体验 Apdex」），前端渲染逻辑如下：

严重状态：近 30 天告警日总和 ≥ 10 天，右上角强制显示红色「严重性能受损」标签。表格中对应的「告警日」单元格数字标红加粗
需关注状态：告警日处于 3 到 9 天，或最低日值跌破 95%，显示黄色「体验波动」标签
正常状态：指标平稳，显示绿色「体验良好」标签

4.12 慢看板 TOP 10

展示运维平台已排查出的现有的问题请求列表，按近 30 天超时次数降序。

5. 诊断结论解读

5.1 风险状态等级

诊断报告中的风险状态分为三个等级，对应不同的处理紧迫程度：

状态等级	运维定义	业务影响判定	建议动作
严重风险（标红）	立即处理。系统当前处于非稳态或存在崩塌风险	负载可能已触及物理瓶颈，需立即处理	启动硬件扩容或参数调优
需关注（标黄）	本周跟进。系统存在配置缺陷或性能劣化趋势	暂无宕机风险，但存在单点故障隐患或资源冗余不足	排查单点故障或资源冗余不足问题
正常指标（标绿）	持续监控。指标符合最佳实践，运行处于基准线内	系统架构健康，关键链路连通性与性能表现极佳	无需额外操作

5.2 基建核心问题诊断项

检查项	资源粒度	严重风险触发条件	需关注触发条件	正常指标触发条件
资源超分配比	宿主机	`allocated_cpu` > `physical_spec.cpu_cores` 或 `allocated_mem_gb` > `physical_spec.memory_gb`（非黑即白，无中间态）	—	`allocated_cpu` ≤ `physical_spec.cpu_cores` 且 `allocated_mem_gb` ≤ `physical_spec.memory_gb`
硬件规格达标	宿主机	—（非致命，仅提示）	`physical_spec.memory_gb` < 64	`physical_spec.memory_gb` ≥ 64
节点高可用	组件	—（非致命，仅提示）	biweb 容器数 < 2 或 biworker 容器数 < 2	biweb 容器数 ≥ 2 且 biworker 容器数 ≥ 2
存储水位监控	宿主机	近 30 天磁盘或 Inode 使用率相关告警次数 ≥ 5 次	近 30 天磁盘或 Inode 使用率相关告警次数 2 到 4 次	近 30 天无磁盘相关告警

5.3 稳定性核心问题诊断项

检查项	资源粒度	严重风险触发条件	需关注触发条件	正常指标触发条件
应用可用性健康度	应用	近 30 天触发「系统宕机」或「引擎宕机」告警 ≥ 1 次；或触发「节点无响应」告警 ≥ 3 次	近 30 天触发「节点无响应」告警 1 到 2 次	近 30 天无任何宕机或节点无响应告警
宿主机负载-CPU	宿主机	Max(Daily_P95_CPU) ≥ 0.90 且 CPU 告警次数 ≥ 5	Max(Daily_P95_CPU) ≥ 0.80 且 < 0.90；或 CPU 告警次数 2 到 4 次	不满足高危与需关注条件
宿主机负载-内存	宿主机	Max(Daily_P95_Mem) ≥ 0.90 且内存告警次数 ≥ 5	Max(Daily_P95_Mem) ≥ 0.80 且 < 0.90；或内存告警次数 2 到 4 次	不满足高危与需关注条件
核心应用负载-CPU	应用	Max(Daily_P95_AppCPU) ≥ 0.90 且应用 CPU 告警 ≥ 5	Max(Daily_P95_AppCPU) ≥ 0.80 且 < 0.90；或应用 CPU 告警 2 到 4 次	不满足高危与需关注条件
核心应用负载-内存	应用	Max(Daily_P95_AppMem) ≥ 0.90 且应用内存告警 ≥ 5	Max(Daily_P95_AppMem) ≥ 0.80 且 < 0.90；或应用内存告警 2 到 4 次	不满足高危与需关注条件
JVM 线程池健康度	应用	近 30 天线程池阻塞告警次数 ≥ 5	近 30 天线程池阻塞告警次数 2 到 4 次	不满足高危与需关注条件
组件健康状态	组件	近 30 天关键组件心跳中断/存活告警次数 ≥ 3	近 30 天关键组件心跳中断/存活告警次数 1 到 2 次	无组件存活类告警

组件健康状态涵盖的告警项包括：外置库状态异常告警、外置库连通性告警、状态服务器联通告警、状态服务器内存占用过高、状态服务器状态异常告警、文件服务器连通性告警、Nginx 状态异常告警。

5.4 性能阻塞分析诊断项

检查项	资源粒度	严重风险触发条件	需关注触发条件	正常指标触发条件
访问体验（Apdex）	集群	近 30 天应用访问异常告警次数 ≥ 10	近 30 天应用访问异常告警次数 3 到 9	近 30 天应用访问异常告警次数 < 3

上一篇：系统巡检内容

下一篇：链路追踪简介

有帮助
没帮助
只是浏览

English 中文（繁體）

中文（简体）

FineBI深度巡检