反馈已提交

网络繁忙

FineBI深度巡检

  • 文档创建者:Carly
  • 历史版本:2
  • 最近更新:Carly 于 2026-05-19
  • 1. 概述

    1.1 版本

    运维平台版本
    功能变更
    V2.35.0-

    1.2 应用场景

    深度巡检是运维平台为 FineBI 工程提供的一键式架构稳定性与性能诊断工具。

    通过自动采集 90 天长周期运维数据,生成包含基建诊断、稳定性分析和性能评估的专业 HTML 诊断报告,并支持导出结构化明细资料包供 AI 深度解析。

    帮助运维人员将原本需要 4 到 8 小时的专家人工诊断工作,缩短为分钟级操作。

    2. 适用范围

    • 深度巡检功能仅在以下条件下可用:工程版本为 FineBI 6.1 或 7.0 且 工程通过运维平台部署

    • FineReport工程、FineDataLink工程及非运维平台部署的 FineBI 工程均不支持此功能

    3. 功能使用

    3.1 功能入口

    管理员登录运维平台,单击目标 FineBI 工程卡片进入项目详情页。单击「健康巡检 > 深度巡检」。

    3.2 执行深度巡检

    • 首次巡检

    单击「开始巡检」,请耐心等待巡检任务完成,页面自动展示诊断报告,并在报告下方显示巡检记录条目。

    • 重新巡检

    当需要获取最新的诊断数据时,在诊断报告页面底部,单击「重新诊断」,重新执行深度巡检。

    3.3 查看诊断报告

    巡检完毕后,支持直接查看完整的诊断报告。

    3.4 导出诊断报告

    深度巡检支持导出到本地查看。支持两种导出方式,满足离线查看与 AI 深度分析的不同需求。

    注:明细资料包如果超过 100 MB,系统默认保留最近 5 份,超限时自动删除历史最早版本。

    • 导出 HTML 诊断报告

    HTML 报告为自包含的静态文件,支持离线查看,无需网络环境。

    1)在巡检报告列表中,找到目标巡检记录条目。

    2)单击「下载 html」,浏览器自动下载 HTML 诊断报告文件。

    下载的 HTML 文件可在任何浏览器中直接打开,完整展示诊断报告的所有图表和分析内容。

    • 导出明细资料包

    明细资料包包含结构化的元数据和时序明细数据,供 AI 平台或专业工具进行深度分析。

    1)在巡检报告列表中,找到目标巡检记录条目。

    2)单击「下载明细资料包」,浏览器自动下载 ZIP 压缩包。

    3)资料包解压后,文件说明如下:

    文件夹
    文件说明
    details30d_alert_detail.csv30 天内所有告警事件流水
    30d_performance_details.json30天内宿主机和应用节点CPU/MEM/GC/线程和连接池等基础监控指标流水 
    metadataapm_summary.jsonAPM 汇总:QPM 趋势、增长率、容量预测指标
    cluster_topology.json集群架构拓扑:物理规格、Limit、JVM 参数快照
    performance_diagnostic_matrix.json性能诊断矩阵:30 天聚合指标与告警汇总

    4. 诊断报告详解

    诊断报告从整体诊断摘要到各模块详细分析依次排列,确保信息层次清晰、便于快速阅读和后续程序解析。

    报告顶部信息

    报告顶部显示项目基本信息:

    • 集群节点数量

    • 报告生成时间

    集群架构拓扑

    此模块展示当前工程的集群部署架构,帮助运维人员快速了解节点分布与资源分配情况。

    报告展示以下信息:

    • 工程版本与镜像信息

    • 集群组件构成(如 2biweb + 1bimaster + 2biworker + 1biminio)

    • 数据采集时间

    • 各组件角色说明

    • 每台宿主机上运行的容器及其资源配置(容器最大可用 CPU、容器最大可用内存、JVM Xmx、DirectMemory)

    集群宿主机资源分配总览

    此模块基于容器最大可用 CPU 和内存的汇总分配率,直观展示各宿主机的资源分配是否合理。当分配率超过 100% 时,表示存在超分配风险。

    每台宿主机展示以下信息:

    • 宿主机 IP 地址与物理规格(总 CPU 核数 / 总内存)

    • CPU 分配率:已分配最大可用 CPU 总和 / 物理 CPU 总量。超过 100% 时以红色标注并显示超限百分比

    • 内存分配率:已分配最大可用内存总和 / 物理内存总量。根据使用率以绿色(正常)、橙色(偏高)、红色(超限)标注

    • 该宿主机上运行的容器列表

    QPM 日峰值增长轨迹

    此模块展示近 90 天的每分钟查询数(QPM)趋势,帮助运维人员评估业务增长对系统容量的影响,判断是否需要扩容。

    报告展示以下信息:

    • 近 24h 并发请求峰值(QPM)

    • 90 天增幅:与 90 天前首周均值的增长百分比

    • QPM / 天增速:线性回归拟合的日均增长量

    • 趋势图:折线图展示每日 QPM 峰值,红色虚线展示线性回归趋势,绿色柱状图展示日活用户数峰值

    当 90 天增幅超过 30% 且近期有触限趋势时,系统标记为"需关注",提示运维人员提前做好容量规划。

    宿主机负载健康诊断矩阵

    此模块通过矩阵式布局,对所有宿主机的 CPU 和内存负载进行横向对比,帮助运维人员快速定位负载最高的宿主机。

    矩阵中每个宿主机卡片展示三个维度的统计指标(基于近 30 天数据):

    • 均值:30 天内每日 P95 均值的平均值,反映常态化负载水平

    • 峰值:30 天内单日绝对峰值的最高值,反映瞬时压力

    • P95:30 天内每日 P95 最高值(Max of Daily P95),反映极限负载水平

    节点状态根据 P95 指标和告警次数判定:

    • 严重风险:P95 ≥ 90% 或告警次数 ≥ 5 次,标红

    • 需关注:P95 在 70% 到 90% 之间或告警次数在 1 到 5 次,标黄

    • 正常指标:其他情况,标绿


    应用节点负载健康矩阵

    此模块将所有应用实例按业务角色分组(bi-web、bi-worker、bi-master 等),实现同类应用间的性能横向对比。

    矩阵顶部提供三个快捷筛选标签:

    • 「全部节点」:默认视图,展示所有应用节点状态

    • 「告警节点」:一键过滤出状态为"严重"的节点

    • 「高负载」:过滤出 P95 指标超过 75% 的节点,用于主动发现潜在性能瓶颈

    应用节点的内存 P95 指标采用 FGC 后老年代的占用比计算,更准确地反映真实内存使用水位。


    告警审计

    此模块汇总近 30 天的服务器、应用和组件告警信息,按三个核心架构域分类展示:

    • 服务器告警

    • 应用告警

    • 组件告警

    每类告警展示告警规则、触发条件、涉及节点、告警次数、最近告警时间和当前状态。右上角显示告警总数汇总标签。

    具体告警条目的详细信息和时间序列,需前往「项目管理 > 告警 > 告警记录」查看。


    5. 诊断结论解读

    诊断报告中的风险状态分为三个等级,对应不同的处理紧迫程度:

    状态等级含义建议动作
    严重风险系统当前处于非稳态或存在崩塌风险,负载可能已触及物理瓶颈立即处理,启动硬件扩容或参数调优
    需关注系统存在配置缺陷或性能劣化趋势,暂无宕机风险但存在隐患本周跟进,排查单点故障或资源冗余不足问题
    正常指标指标符合最佳实践,运行处于基准线内持续监控,无需额外操作

    基建核心问题诊断项

    检查项严重风险判定需关注判定正常指标判定
    资源超分配比容器 Limit 总和 > 宿主机总量容器 Limit 总和 ≤ 宿主机总量
    硬件规格达标物理内存 < 64 GB物理内存 ≥ 64 GB
    存储水位监控磁盘使用率 > 85% 或近 30 天告警 > 1 次使用率在 75% 到 85% 之间使用率 < 75%
    节点高可用biweb 或 biworker 节点数 < 2(存在单点)biweb ≥ 2 且 biworker ≥ 2

    稳定性核心问题诊断项

    检查项严重风险判定需关注判定正常指标判定
    宿主机 CPU 负载30 天 P95 > 90% 或告警 > 5 次30 天 P95 在 80% 到 90% 之间或告警 > 2 次30 天 P95 < 80%
    宿主机内存负载30 天 P95 > 90% 或告警 > 5 次30 天 P95 在 80% 到 90% 之间或告警 > 2 次30 天 P95 < 80%
    核心应用内存JVM Heap P95 > 90% 或告警 > 5 次JVM Heap P95 在 80% 到 90% 之间或告警 > 2 次JVM Heap P95 < 80%
    核心应用 CPUJVM Heap P95 > 90% 且告警 > 5 次JVM Heap P95 在 80% 到 90% 之间或告警 > 2 次JVM Heap P95 < 80%
    组件健康状态关键组件心跳中断告警 > 1 次组件曾出现偶发抖动核心组件心跳 100% 存活

    性能阻塞分析诊断项

    检查项严重风险判定需关注判定正常指标判定
    访问体验(Apdex)前一天 Apdex ≤ 96%Apdex 在 96% 到 98% 之间Apdex ≥ 98%
    更新甘特图阻塞白天存在批量阻塞且子任务 > 1 万任务耗时长但未造成大面积阻塞任务执行流畅、无堆积
    趋势预测(QPM)90 天增幅 > 30% 且 60 天内触限增长平稳且容量余量充足

    6. 常见问题

    深度巡检标签页未显示

    检查以下条件是否全部满足:工程版本为 FineBI 6.1 或 7.0;工程通过运维平台部署。

    以上任一条件不满足时,深度巡检标签页不会展示。

    单击「开始巡检」后提示无法执行

    同一工程同一时间只能运行一个深度巡检任务。如果已有巡检任务正在执行,需等待当前任务完成后再发起新的巡检。

    导出的 HTML 报告在浏览器中打开后图表不显示

    HTML 报告为自包含文件,内联了所有 CSS 和 JS,正常情况下离线即可查看。

    如果图表不显示,请检查浏览器是否禁用了 JavaScript,或尝试使用 Chrome 88 及以上版本浏览器打开。

    明细资料包下载后解压失败

    请确认下载的 ZIP 文件完整,文件大小不为 0。如果网络不稳定导致下载中断,请重新下载。

    宿主机资源分配总览中 CPU 分配率超过 100%

    CPU 分配率超过 100% 表示容器 CPU Limit 的总和超过了宿主机物理 CPU 总量,即存在资源超分配。

    容器化环境中 CPU Limit 超分配是常见现象,系统通过 CPU 时间片共享机制调度。

    但超分配比例过高时,在高负载场景下可能导致 CPU 争抢和性能下降,建议重新规划集群节点分布或扩容物理机。

    附件列表


    主题: 项目管理
    • 有帮助
    • 没帮助
    • 只是浏览
    中文(简体)

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持