反馈已提交

网络繁忙

BI稳定性与性能分析看板使用说明

  • 文档创建者:应用复用中心
  • 历史版本:11
  • 最近更新:应用复用中心 于 2026-05-12
  • 1. 概述

    1.1 版本

    FineBI 版本BI运维取数插件
    BI应用共享插件
    6.1.6及以上V2.2.2及以上

    V2.3.4及以上

    7.0.0及以上V2.2.2及以上V2.1.4及以上

    1.2 应用场景

    随着企业数据分析业务的不断深入,BI系统的稳定性和查询性能直接影响到终端用户的体验。为了帮助IT运维人员和系统管理员更好地监控系统健康状态、快速定位性能瓶颈,我们推出了“BI稳定性与性能分析看板”。

    该看板主要适用于以下场景:

    • 稳定性&性能巡检:运维人员每日查看系统健康分与性能指标,整体判断系统健康情况。

    • 架构治理:为“应用架构扩容”、“引擎性能存算分离方案”和“抽取与直连模式”的优化提供数据支撑。

    1.3 核心设计理念

    • 结果导向:重点关注影响用户体验的“卡顿”和“宕机”现象,核心指标聚焦于 GC 停顿时间(GC Duration)、负载评分(Load Score)以及应用性能指数(Apdex)。

    • 根因归类:通过内存常驻量、GC触发原因、CPU使用率等指标,将问题归类为内存泄漏、配置不合理或计算资源瓶颈。

    • 联动分析:支持时间轴对齐和多维度下钻,精准定位导致性能问题的具体仪表板(Dashboard)或组件(Widget)。

    1.4 部署安装说明

    该看板安装教程可参考:【BI运维取数】BI运维分析看板部署说明-【需要补充上稳定性和性能分析指标内容】


    2. 看板使用说明

    本看板主要分为两大模块:BI稳定性看板 和 BI性能分析看板。可通过页面顶部的标签页进行切换。

    2.1 全局筛选器

    在页面顶部,悬浮着全局筛选器,用于控制整个看板的数据范围。

    • 日期区间:支持自定义时间段。默认建议查看近24小时(日度健康复盘)或近1小时(故障现场还原)。若需追溯历史问题或查看趋势,可选择更长的时间范围(如近30天)。

    • 节点node名称(稳定性看板专属):单选/多选下拉框。可选择“无限制”或特定节点。建议:在进行稳定性分析时,通常需要聚焦到具体单机进行下钻,不建议默认聚合所有节点数据,以免掩盖单机的OOM风险。

    • gc类型(稳定性看板专属):可选择 全部 / Full GC,GC / Young GC。默认勾选 Full GC,GC,因为Full GC对系统稳定性的影响最大。

    • 引擎类型(性能分析看板专属):可选择 全部 / 抽取(Spider) / 直连(Direct)。不同引擎的优化手段不同,前者通常考虑扩容Worker,后者通常考虑优化SQL或数据库。

    • 仪表板查看用户(性能分析看板专属):用于排查特定用户的慢查询投诉。

    • 仪表板ID(性能分析看板专属):直接搜索特定模板ID,进行单模板性能诊断。


    2.2 【BI稳定性看板】模块

    该模块主要用于监控系统的底层资源(CPU、内存)使用情况和垃圾回收(GC)状态,帮助排查系统卡顿或宕机的根本原因。

    2.2.1 核心指标卡片(8宫格)

    展示了系统稳定性的8个关键指标及环比变化。

    1. 平均负载评分:筛选时间段内所有 GC 负载评分的算术平均值。分数越高代表大部分时间都在处理垃圾回收,业务处理能力越弱。

    2. 最高负载评分:筛选周期内所有 GC 负载评分中的最高值(代表最差状态)。只要该分数过高,说明出现过严重的性能抖动。

    3. 亚健康负载占比 (负载分>=80):量化“持续性”卡顿问题。如果占比达到 15% 以上,说明系统存在持续性的严重卡顿。

    4. 平均CPU:系统整体的平均CPU使用率。

    5. 最高CPU:CPU使用的峰值。

    6. FGC平均耗时 (ms):触发 Full GC 事件的平均停顿时间。如果该值过高(如 >2000ms),说明系统在业务高峰期存在明显的卡顿。

    7. FGC最高耗时 (ms):单次 Full GC 停顿时间的最大值。如果最大值达到 30秒以上,足以导致严重的生产事故(如节点无响应),是判断“宕机/假死”的直接证据。

    8. FGC频率:筛选周期内触发 Full GC 的总次数。

    9. 亚健康cpu占比 (cpu>=80%):量化cpu持续负载瓶颈问题问题。如果占比达到 15% 以上,说明系统存在持续性的cpu占用高

    10. 回收后堆内占用(G):老年代回收使用情况。

    2.2.2 GC原因分布饼状图

    3.png

    • 功能:展示不同原因触发的 GC 占比。

    • 分析场景:

      • 如果 Ergonomics(自适应调整)占比高,通常意味着 JVM 认为必须扩容才能满足需求,建议扩容 Heap 内存。

      • 如果 Allocation Failure(分配失败)占比高,说明年轻代空间不足。

    2.2.3 趋势与折线图

    1. FGC与负载评分日趋势图:

      • 功能:双轴折线图,展示每日的“负载评分”和“自适应调节GC次数”变化趋势。

      • 分析场景:用于观察系统负载的长期趋势,识别是否存在周期性的压力高峰。


      • 支持min级别钻取分析

    2. cpu使用率折线图:

      • 功能:展示选定节点在时间轴上的 CPU 使用率变化。

      • 分析场景:如果 CPU 飙升的同时发生了 GC,通常是 GC 引发的 CPU 高负载;如果 CPU 飙升但没有 GC,通常是业务逻辑死循环或高并发计算导致。


    3. 内存回收基线情况:

      • 功能:双轴折线图,展示“GC前堆内存使用量”和“GC后堆内存使用量”。

      • 分析场景:重点关注“GC后堆内存使用量”(即常驻内存)。正常情况下,每次 GC 后内存应回落到较低水平。若曲线呈现持续上扬趋势,则是典型的内存泄漏,必须报警并排查。


    2.2.4 明细数据表

    • CPU高占用明细表:记录 CPU 使用率异常高的具体时间点和进程信息,帮助定位 CPU 飙升的“真凶”。

    • GC高负载明细表:基于负载评分筛选出的严重 GC 事件明细,包含 GC 开始时间、原因、回收前后内存变化等,用于深度下钻分析。


    2.3 【BI性能分析看板】模块

    该模块主要关注业务层面的查询性能,通过 Apdex 指数和慢查询明细,帮助定位拖慢系统的具体仪表板或组件。

    2.3.1 核心指标卡片(8宫格)与 Apdex 趋势图

    1. 抽取Apdex指标 / 直连Apdex指标:

      • 功能:分别量化抽取引擎(Spider)和直连引擎(Direct)的查询满意度评分。

      • 分析场景:排除数据库性能干扰,纯粹反映 BI 服务器的计算能力(抽取);或反映底层业务数据库的响应速度(直连)。(优秀:0.98-1.00;良好:0.95-0.98;急需优化:<0.95)

    2. 总请求数:系统处理的所有查询请求总量,用于感知业务规模和负载压力。

    3. 抽取请求数占比:

      • 功能:抽取请求数 / 总请求数。

      • 分析场景:高占比(>80%)高度依赖 BI 服务器 CPU/内存;低占比(<20%)性能压力在数据库端。可作为架构调整(如存算分离)的依据。

    4. 抽取QPM峰值:每分钟抽取查询请求数的最大值,是服务器配置推荐(计算所需 CPU 核数)的核心依据。

    5. 2s以内 / (2-8s) / 8s以上请求占比:

      • 功能:将响应时间分段统计。

      • 分析场景:2s以内代表“秒开”率;2-8s是性能优化的主要对象(可容忍但需优化);8s以上为性能红线(严重告警,极易引发投诉)。

    6. Apdex统计信息 (近30天) 面积图:

      • 功能:展示近30天 Apdex 指数的变化趋势,支持通过右上角 Tab 切换“抽取”或“直连”。

      • 分析场景:用于验证“优化效果”或监控系统性能的长期衰退情况。


      2.3.2 缓存与请求汇总

    1. 缓存命中率看板:

      • 功能:饼图展示查询命中缓存的比例。

      • 分析场景:缓存是性能的第一道防线。如果命中率极低(如 < 10%),说明系统可能未开启缓存配置,推荐打开以提升性能。

    2. 引擎请求&性能指标月汇总数据:

      • 功能:按月汇总请求数、直连/抽取分布、Apdex指标的表格。

      • 分析场景:宏观对比上下月的负载变化。如果请求数翻倍,则性能下降是预期内的,需考虑扩容硬件。


    2.3.3 查询耗时并发趋势 (核心诊断区)

    这是排查并发和慢查询的核心区域,包含双轴折线图(上图为请求数,下图为引擎查询耗时)。
    支持通过右上角 Tab 切换三种视图:

    • 查询耗时并发趋势_明细 :展示原始采样点,用于定位“几点几分”的尖刺。

    • 查询耗时并发趋势_按小时 :展示24小时规律,识别“早高峰/晚高峰”。

    • 查询耗时并发趋势_按分钟 :用于极高精度的排查。

    联动分析场景:

    • 场景1(资源饱和):请求数(上图)升高,耗时(下图)同步升高。结论:硬件资源不足,计算排队,需要扩容节点。

    • 场景2(慢SQL/大表):请求数(上图)平稳或很低,但耗时(下图)突然出现尖刺。结论:某个人触发了复杂查询(如超大表全表扫描),卡住了线程。需结合下方的“慢看板专区”抓出该查询。

    2.3.4 慢看板专区与明细数据

    该区域用于精准定位导致性能问题的具体仪表板和组件。支持通过 Tab 切换不同维度的慢看板列表:

    1. 2-8s慢看板 :体验不佳,属于“可优化”范畴。

    2. 8s以上慢看板 :严重故障,属于“必须解决”范畴。

    3. 平均耗时慢看板 :寻找“慢性病”,虽然没超时,但一直都很慢的模板。

    4. 明细数据 :

      • 功能:展示每次查询的详细日志,包括开始/结束时间、仪表盘ID、组件ID、耗时、BI版本号、缓存命中情况等。

      • 分析场景:用于最终的核对和归因。例如,结合“引擎类型”(如果表格中包含),如果是 Direct 且耗时很长,说明是 SQL 问题;如果是 Spider 且耗时很长,说明是 BI 内存计算问题。

    分析路径:在列表中找到“引擎查询平均耗时”最长或“慢请求次数”最多的 仪表盘ID 和 组件ID。如果某个组件特别慢,通常是因为绑定了大表且没有做过滤。建议优化该组件(如开启过滤下推或切换为抽取模式)。

    附件列表


    主题: 业务场景案例
    • 有帮助
    • 没帮助
    • 只是浏览

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持