历史版本26 :告警任务 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.5.5-
V1.7.0支持自定义告警
V1.9.0

负载过高告警——节点无响应」更名为「应用卡顿告警——节点无响应」,降低用户理解成本

V1.11.0新增默认告警「运维平台挂载磁盘预警」,覆盖通用运维场景
V1.14.0

「应用卡顿告警——节点无响应」触发逻辑优化:异常状态持续触发时长从30s优化为60s

V2.0.0全局项目告警与单个项目告警拆分管理
V2.6.0针对BI加速引擎、kafka等组件,新增自定义告警指标类型
V2.10.0

1)新增默认告警

应用告警:CodeCache使用率告警、MetaSpace使用率告警

服务器告警:服务器磁盘空间预警、Inode使用率预警

2)自定义告警新增指标

应用指标:CodeCache使用率、MetaSpace使用率

服务器指标:服务器各目录磁盘空间使用率Inode使用率

1.2 应用场景

当运维项目遇到高负载、宕机风险、磁盘空间不足等问题时,需要及时通知管理员。

FineOps提供告警管理功能,提供内置的默认告警任务。用户也可自定义异常触发条件和达成告警的持续时间。

2. 默认告警编辑

为了方便用户对项目进行管理监控,运维平台内置了一些告警规则,作用于运维平台中的所有项目。

管理员登录运维平台,点击「告警中心>告警任务>默认告警」,可查询所有内置的默认告警规则。如下图所示:

2.1 任务一览

运维平台内置的规则如下表所示,不支持更改。

分类告警名称
判断逻辑
应用告警应用打开文件数不足

异常项:此应用节点打开文件数已超过85%,存在导致应用节点故障的风险

触发时长:异常状态持续超过2min 

处理建议:请及时调整对应应用的最大文件打开数nofile ,修改方法参考 Linux最大打开文件数

应用卡顿告警——节点无响应

异常项:应用节点响应异常

触发时长:异常状态持续超过60s

处理建议:请访问应用节点检查其是否存在异常或及时重启异常节点,避免影响系统使用
系统宕机告警——无响应

异常项:应用节点发生宕机

触发时长:异常状态持续超过2min

处理建议:请尽快重启并排查宕机问题,避免影响系统使用
http线程数阻塞

异常项:http线程数已经使用超过85%,可能导致应用请求阻塞

触发时长:异常状态持续超过30s

处理建议:请排查是否由于系统使用并发量增加导致,如因并发过大,请尽快提升http线程最大值,如非并发增大可能出现了业务异常,建议使用堆栈分析定位
https线程数阻塞

异常项:https线程数已经使用超过85%,可能导致应用请求阻塞

触发时长:异常状态持续超过30s

处理建议:请排查是否由于系统使用并发量增加导致,如因并发过大,请尽快提升https线程最大值,如非并发增大可能出现了业务异常,建议使用堆栈分析定位

工程磁盘空间预警

异常项:工程磁盘剩余空间不足15%

触发时长:异常状态持续超过5min

处理建议:当前服务器工程磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
FullGC异常

异常项:应用节点FullGC发生异常

触发时长:5min内,特定标签target_belong_app和instance下的JVM全量垃圾回收,次数总和大于3次且时间总和超过 50s

处理建议:当前应用节点发生连续FullGC,且FullGC持续时间过长,可能导致访问出现明显卡顿并有宕机风险,请及时排查系统使用问题并判断是否需要重启恢复使用
CodeCache使用率告警

异常项:应用节点CodeCache使用率已超过80%,存在导致应用节点性能问题的风险

触发时长:异常状态持续超过2min

处理建议:请及时调整对应应用的CodeCache配置,保证其使用率维持在50%左右或更低
MetaSpace使用率告警

异常项:应用节点MetaSpace使用率已超过80%,存在导致应用节点故障的风险

触发时长:异常状态持续超过2min

处理建议:请及时调大对应应用的MetaSpace配置,并联系帆软技术人员协助排查
性能告警应用访问异常

异常项:项目当前性能指数过低,可能出现访问异常(性能指数APDEX小于90%且CPM每分钟事务数大于 100)

触发时长:异常状态持续超过3min

处理建议:请尽快关注系统健康观测页面中的性能指数趋势,如持续降低需确认应用是否出现访问异常,并尽快输出堆栈、dump等日志排查故障或重启恢复使用
服务器告警服务器cpu预警

异常项:服务器cpu使用率持续过高(超过90%)

触发时长:异常状态持续超过6min

处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用
服务器内存预警

异常项:服务器内存占用持续过高(超过90%

触发时长:异常状态持续超过6min

处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用

服务器打开文件数不足

异常项:服务器打开文件数已超过85%,存在导致系统故障的风险

触发时长:异常状态持续超过2min

处理建议:请及时调整对应节点的最大文件打开数file_max,修改方法参考 Linux最大打开文件数
服务器磁盘空间预警

异常项:服务器磁盘目录剩余空间不足15%

触发时长:异常状态持续超过6min

处理建议:此服务器磁盘目录剩余空间不足15%,请及时清理磁盘或增加磁盘空间,避免影响系统使用
Inode使用率预警

异常项:服务器inode使用率超过80% 

触发时长:异常状态持续超过2min

处理建议:此服务器inode使用率超过80%,如果inode资源耗尽,即使还存在可用空间也无法创建新文件,请尽快联系技术人员协助排查,避免影响系统使用
组件告警外置库连通性告警

异常项:应用节点和外置数据库连通异常

触发时长:异常状态持续超过30s

处理建议:请检查外置库状态是否异常,如无异常请排查异常节点与外置数据库的网络问题
外置库状态异常告警

异常项:外置库状态异常

触发时长:异常状态持续超过30s

处理建议:请尽快检查外置库状态并恢复外置库访问,避免影响帆软应用提供服务
状态服务器连通性告警

异常项:应用节点和状态服务器Redis连通异常

触发时长:异常状态持续超过30s

处理建议:请检查状态服务器Redis是否异常,如无异常请排查异常节点与状态服务器的网络问题
状态服务器内存占用过高

异常项:状态服务器Redis内存使用率超过85%

触发时长:异常状态持续超过5min

处理建议:请排查状态服务器Redis使用是否正常,如使用正常建议后续增加Redis内存配置避免Redis压力过大影响帆软应用提供服务
状态服务器状态异常告警异常项:状态服务器Redis异常
触发时长:异常状态持续超过30s
处理建议:请尽快检查状态服务器并恢复状态服务器使用,避免影响帆软应用提供服务
文件服务器连通性告警异常项:应用节点和文件服务器连通异常 
触发时长:异常状态持续超过30s
处理建议:请检查文件服务器是否异常,如无异常请排查异常节点与文件服务器的网络问题
Nginx状态异常告警异常项:Nginx状态异常
触发时长:异常状态持续超过30s
处理建议:请尽快检查Nginx并恢复Nginx使用,避免影响帆软应用提供服务
运维平台挂载磁盘预警异常项:运维平台挂载磁盘剩余空间不足15%

触发时长:异常状态持续超过5min

处理建议:运维平台挂载磁盘剩余空间不足15%,磁盘空间不足可能导致运维平台出现故障,请及时清理磁盘或增加磁盘空间

2.2 管理任务

1)任务状态

告警任务有四种状态:

  • 正常:任务已启用,所有项目均未触发限制项。

  • 异常:任务已启用,存在项目触发了限制项,但未达到告警通知的持续时长。

  • 告警:任务已启用,存在项目触发了限制项,且已达到告警通知的持续时长。

  • 禁用:任务未启用

2)任务启停

  • 对于默认告警,支持启动、禁用操作。

  • 不支持删除、修改默认告警任务,不支持修改任务分组。

3)查看告警任务详情

  • 按照分组存放并展示每个任务的简要信息:告警名称、当前状态、适用项目、标签、触发条件、是否启用

  • 可点击「查看告警详情」按钮,查看本条告警任务的详细信息和告警通知模板

4)查看告警记录

  • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

3. 自定义告警编辑

3.1 添加任务-入口

运维平台支持两种方式添加自定义告警任务。

1)对单个/多个/所有运维项目添加同一告警任务

管理员登录运维平台,点击「告警中心>告警任务>自定义告警」,即可自定义告警任务。

任务可对单个/多个/所有运维项目生效。

2)对指定项目添加告警任务

管理员登录运维平台,选择指定运维项目,点击「告警>告警任务>自定义告警」,即可自定义告警任务。

任务仅可对该运维项目生效。


3.2 添加任务-操作

1)创建告警

管理员登录FineOps运维平台,点击「监控与告警>告警管理>告警任务>自定义告警」,点击「创建告警」按钮,进入配置界面。

2)告警任务设置

在「告警任务设置」页面,支持设置任务的基础信息和告警通知的文本。

点击「保存」,完成任务设置。

设置项说明
告警名称该告警任务的名称
不支持重名
通用项目可下拉选择该告警任务生效的项目,支持多选
为空代表不限制,全选项目
分组
可下拉选择该告警任务所属的分组
支持添加分组,分组名称不支持重复,不支持多选
如添加了分组,但不存在任何一个告警任务使用到该分组,保存任务时该分组不会保存
标签可下拉选择该告警任务的标签
支持添加标签,标签名称不支持重复,不支持多选
如添加了标签,但不存在任何一个告警任务使用到该标签,保存任务时该标签不会保存
触发条件

支持对以下指标设置告警判断条件和触发时长

指标类型
指标名称应用场景
应用指标

近五分钟FullGC总耗时

确保垃圾回收过程不会显著影响应用性能,及时发现和解决潜在的内存管理问题,以保持系统的响应速度和稳定性

近五分钟FullGC次数

及时识别和解决内存管理问题,防止频繁的垃圾回收导致应用性能下降和系统响应延迟

应用内存使用率

防止内存泄漏或过度消耗导致的系统崩溃、性能下降和其他应用资源不足

应用CPU使用率

确保系统性能和响应速度,防止单个应用占用过多资源而影响整体系统运行效率

应用剩余文件打开数

防止达到文件描述符限制而导致应用程序无法打开新文件,从而避免潜在的系统错误和性能问题

应用工程目录磁盘使用率

确保系统性能和稳定性,防止高负载导致的性能下降和潜在的系统故障

CodeCache使用率

Code Cache的空间不足,可能会导致JVM无法正常运行,导致性能持续降低
MetaSpace使用率

元数据空间(Metaspace)是 Java 虚拟机(JVM)用于存储类元数据的区域

保留一定的空闲空间可以提高读写效率,减少碎片化,保障系统的响应速度

应用http线程池使用率确保请求处理的高效性,防止线程池耗尽导致请求延迟或拒绝,保障应用的性能和可用性
服务器指标服务器内存使用率防止内存不足导致的系统性能下降、应用崩溃或服务中断,确保服务器稳定高效运行

服务器CPU使用率

防止过度负载导致的性能瓶颈,确保服务器的高效运行和及时响应

服务器剩余文件打开数

防止文件描述符耗尽,避免系统无法打开新文件而导致应用故障和服务中断
服务器各目录磁盘空间使用率防止磁盘空间耗尽导致的数据写入失败和系统崩溃,确保服务器稳定运行
Inode使用率防止Inode耗尽导致无法创建新文件或目录,从而避免系统或应用程序出现故障
计算引擎指标计算引擎正在执行的任务数量

监测计算引擎正在执行的任务数量

判断条件:任务数量

计算引擎等待执行的任务数量

监测计算引擎等待执行的任务数量

判断条件:任务数量

kafka指标kafka GC时长

监测GC耗

判断条件:GC时长占比,小于1

kafka内存使用率

监测JVM当前堆内内存使用

判断条件:JVM当前堆内内存使用占比,小于1

加速引擎指标加速引擎FE存活节点

用于判断starrocks组件的FE存活节点数是否少

判断条件:FE节点存活个数

加速引擎BE存活节点数

用于判断starrocks组件的BE存活节点数是否少了

判断条件:BE节点存活个数

加速引擎FE连接数

监测连接数压力

判断条件:各FE节点当前连接数

加速引擎FE查询QPS

监测查询并发

判断条件:各FE节点每秒查询数

加速引擎FE请求RPS

监测请求并发

判断条件:各FE节点每秒请求数

加速引擎FE99分位查询耗时(ms)

性能告警

判断条件:各FE节点处理速度最快的99%的操作中,最长的延迟时间,单位为毫秒

加速引擎FE内存使用率

内存告警

判断条件:各FE节点的内存使用占比,小于1

加速引擎BE可用磁盘空间

磁盘告警

判断条件:各BE节点存储目录的磁盘可用空间,单位bytes

加速引擎BE-Compaction Score

监测BE的特征指标,影响性能

判断条件:

通常该值需要维持在100以内,而在大部分批量导入或低频导入场景下,该值通常为10-20或者更低

如果该值过高,不仅会影响导入,还会影响集群的查询性能,此时就需要及时的降低导入频率

加速引擎BE空闲CPU

CPU告警

判断条件:BE CPU的空闲占比,小于1

加速引擎BE内存用量

内存告警

判断条件:各个BE节点的内存使用情况,单位B

通知文本

设置告警通知中的文本内容

支持输入文本和参数,支持换行,支持的参数包括:

  • 项目名称:{{ $labels.target_belong_app }}

  • 节点名称:{{ $labels.ClusterNodeName }}

  • 节点地址:{{ $labels.instance }}

3)效果预览

  • 保存的告警任务,展示在「自定义告警」的指定分组中。

  • 展示该告警任务的适用项目、标签、触发条件、任务状态等信息,任务默认启用。

3.2 管理任务

1)任务状态

告警任务有四种状态:

  • 正常:任务已启用,适用项目均未触发限制项。

  • 异常:任务已启用,存在适用项目触发了限制项,但未达到告警通知的持续时长。

  • 告警:任务已启用,存在适用项目触发了限制项,且已达到告警通知的持续时长。

  • 禁用:任务未启用

2)任务启停删除

  • 对于自定义告警,支持启动、禁用和删除操作。

3)修改分组名称

  • 对于自定义告警分组,支持修改分组名称。

4)查看告警记录

  • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

5)编辑告警

  • 可点击「编辑告警」按钮,编辑本条告警任务的基础信息和告警通知文本。

  • 编辑告警,不改变告警任务原本的启停状态。