历史版本4 :应用监控 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.5.5-
V1.5.6节点明细中,新增指标「CodeCache内存池
V1.5.8

1)节点状态总览中:删除指标「线程死锁数」、「temp目录磁盘余量

2)应用信息中:新增指标「系统资源优先级监控」

3)删除「BI资源监测」相关内容

1.2 功能简介

应用场景:

应用监控仪表板用于监控帆软应用的运行情况。

不同于总览仪表板,应用监控仪表板可以针对单个节点的运行状态的详细数据进行查询。

功能入口:

管理员登录FineOps运维平台,点击「监控与告警>应用监控」,即可查看。

仪表盘分为多个部分:节点状态总览、节点明细、应用信息。

2. 使用前提编辑

2.1 运维项目要求

仪表盘中的数据,由相关exporter指标收集组件提供。容器化部署的帆软项目,默认安装了相关组件。

非容器化部署的帆软项目,在接入运维平台时,需要安装相关组件,否则无法正常使用本文功能。

请确保参考「接入已有非容器化项目」文档,安装了相关日志信息采集和服务器信息采集组件。

2.2 运维平台要求

仪表盘功能,由这些运维组件提供:grafana、prometheus

因此如需正常查看相关仪表盘,需要确保这些组件正常运行。

管理员登录运维平台,点击「运维管理>运维组件」,可启动相关组件。

3. 节点状态总览编辑

1)仪表盘示例:

展示所选运维项目中所有节点的总览信息,如果出现异常指标将标红/标黄显示,通过点击节点名称可以联动下方明细指标。

2)仪表板指标说明:

指标
具体说明
节点名称当前查看的应用的节点名称
节点IP当前查看的应用节点的IP和端口号
运行时长
当前查看的应用节点持续运行的时长,即距离上次启动的时间
实际物理内存占用

当前查看的应用,实际占用的物理内存大小

单位:GiB

存活会话数当前存活会话数,可以用于了解应用的并发峰值情况
负载分由于 GC 机制的作用,通过内存使用率来表征 JVM 负载高低的方式并不能很好地反应 JVM 真实负载情况

因此帆软引入负载分来反应 JVM 真实负载情况,通过GC 回调来获取 GC 数据,并准确衡量 JVM 负载的各种状态

内存使用率内存使用率 = 当前使用的内存 / 可以使用的最大内存

当前使用的内存:当前使用的内存大小(字节)

最大内存:可以使用的最大内存(字节),分配给 JVM 的最大内存

CPU使用率CPU使用率 = 采集时刻 CPU 使用率
root目录磁盘余量

显示检查的磁盘剩余可用的目录总量

单位:GiB

工程磁盘余量

显示检查的磁盘剩余可用的目录总量

单位:GiB

logs目录磁盘余量

显示检查的磁盘剩余可用的目录总量

单位:GiB

4. 节点明细编辑

1)仪表盘示例:

展示所选运维项目中指定节点的明细信息,如果出现异常指标将标红/标黄显示,可通过点击上方节点名称切换。

2)仪表板指标说明:

指标
具体说明
JVM负载

JVM的负载变化情况

负载是帆软根据gc信息计算得出的应用压力量化方式,相比内存能够更真实的反映应用的压力情况

负载过高说明应用压力大,当负载超过80时需要关注是否存在异常

JVM内存使用率

JVM的内存使用率变化情况

反映应用的客观内存占用情况,可能包含可被gc回收的内存占用

JVMCPU使用率

JVM的CPU使用率变化情况

反映应用的CPU占用情况

应用进程实际占用物理内存

随时间变化,应用实际占用的物理内存大小

单位:GiB

GC次数

随时间的gc次数变化情况,gc次数越多通常gc负荷越大

GC时间

应用每秒花在gc上的时间变化情况

反应gc的负荷和应用的吞吐量,gc时间越长,应用吞吐量越小

文件打开数

启动应用的用户会有最大文件打开数的限制,当前应用文件打开数接近最大文件打开数时,可能会导致后续的访问出现报错,需要修改启动用户的最大文件打开数限制

各应用目录磁盘使用情况

展示应用相关的root目录、工程目录、备份目录、temp目录、schedule目录和logs目录所在的磁盘空间使用率情况

当使用率超过80%时会飙红显示,可用磁盘空间不足可能会影响应用的正常运行甚至宕机,需要尽快进行磁盘清理或扩容

各目录磁盘增长情况

各个目录所在磁盘大小的增长情况

如果剩余空间不足10GB可能会影响应用的正常运行甚至宕机,需要尽快进行磁盘清理或扩容

CodeCache内存池

CodeCache内存池的使用量情况,包括CodeCache当前用量和最大可用量

会话数曲线

当前存活会话数,以及存活会话、新增会话和关闭会话数的变化曲线

可以用于了解应用的并发峰值情况

线程说明包括:

容器当前已使用线程数

容器最大线程数(实时)

图表当前已使用线程数

图表最大线程数(实时)

spider图表当前长查询线程数

spider图表长查询等待线程数

spider图表长查询最大线程数

spider图表当前短查询线程数

spider图表短查询等待线程数

spider图表短查询最大线程数

注:spider图表线程监控只在BI使用中才会显示,FR中图表显示为空

1)当容器当前已使用线程数=容器最大线程数时,需要调整容器最大线程池数量

  • 非容器化部署:修改 Tomcat/conf/server.xml配置文件,调整maxThreads到合适大小(建议范围200~2000),需重启生效

  • 容器化部署:可在运维平台-运维工具-容器管理中可视化修改参数,修改参数名和数值同上

2)当spider图表当前已使用线程数=spider图表最大线程数时,需要调整图表最大线程池数量

  • 非容器化部署:修改finedb中FINE_CONF_ENTITY表配置信息,调整SystemOptimizationConfig.chartDataThreadPoolNum到合适大小(建议范围8~50),需重启生效

  • 容器化部署:可在运维平台-配置管理中可视化修改参数,修改参数名和数值同上

5. 应用信息编辑

1)仪表盘示例:

展示所选运维项目中应用的基础信息。

2)仪表板指标说明:

指标
具体说明
系统在线用户数当前在线用户数和在线用户曲线,可以用于判断系统最大在线用户数
系统资源优先级监控应用资源优先级的相关配置信息
应用版本信息应用版本信息,便于进行问题的排查定位
JVM参数JVM的参数信息,便于进行问题的排查定位
应用插件列表应用的插件列表,便于进行问题的排查定位