历史版本21 :告警任务 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.5.5-
V1.7.0支持自定义告警
V1.9.0

负载过高告警——节点无响应」更名为「应用卡顿告警——节点无响应」,降低用户理解成本

V1.11.0新增默认告警「运维平台挂载磁盘预警」,覆盖通用运维场景
V1.14.0

「应用卡顿告警——节点无响应」触发逻辑优化:异常状态持续触发时长从30s优化为60s

1.2 应用场景

当运维项目遇到高负载、宕机风险、磁盘空间不足等问题时,需要及时通知管理员。

FineOps提供告警管理功能,提供内置的默认告警任务。用户也可自定义异常触发条件和达成告警的持续时间。

2. 默认告警编辑

管理员登录运维平台,点击「监控与告警>告警管理>告警任务>默认告警」,可查询内置的告警规则。如下图所示:

2.1 任务一览

运维平台内置的规则如下表所示,不支持更改。

分类告警名称
判断逻辑
应用告警应用打开文件数不足

异常项:此应用节点打开文件数已超过85%,存在导致应用节点故障的风险

触发时长:异常状态持续超过2min 

处理建议:请及时调整对应应用的最大文件打开数nofile ,修改方法参考 Linux最大打开文件数

应用卡顿告警——节点无响应

异常项:应用节点响应异常

触发时长:异常状态持续超过60s

处理建议:请访问应用节点检查其是否存在异常或及时重启异常节点,避免影响系统使用
系统宕机告警——无响应

异常项:应用节点发生宕机

触发时长:异常状态持续超过2min

处理建议:请尽快重启并排查宕机问题,避免影响系统使用
http线程数阻塞

异常项:http线程数已经使用超过85%,可能导致应用请求阻塞

 触发时长:异常状态持续超过30s

处理建议:请排查是否由于系统使用并发量增加导致,如因并发过大,请尽快提升http线程最大值,如非并发增大可能出现了业务异常,建议使用堆栈分析定位
工程磁盘空间预警

异常项:工程磁盘剩余空间不足15%

触发时长:异常状态持续超过5min

处理建议:当前服务器工程磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
FullGC异常

异常项:应用节点FullGC发生异常

触发时长:5min内,特定标签target_belong_app和instance下的JVM全量垃圾回收,次数总和大于3次且时间总和超过 50s

处理建议:当前应用节点发生连续FullGC,且FullGC持续时间过长,可能导致访问出现明显卡顿并有宕机风险,请及时排查系统使用问题并判断是否需要重启恢复使用
性能告警应用访问异常

异常项:项目当前性能指数过低,可能出现访问异常(性能指数APDEX小于90%且CPM每分钟事务数大于 100)

触发时长:异常状态持续超过3min

处理建议:请尽快关注系统健康观测页面中的性能指数趋势,如持续降低需确认应用是否出现访问异常,并尽快输出堆栈、dump等日志排查故障或重启恢复使用
硬件告警服务器cpu预警

异常项:服务器cpu使用率持续过高(超过90%)

触发时长:异常状态持续超过6min

处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用
服务器内存预警

异常项:服务器内存占用持续过高(超过90%

触发时长:异常状态持续超过6min

处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用

服务器打开文件数不足

异常项:服务器打开文件数已超过85%,存在导致系统故障的风险

触发时长:异常状态持续超过2min

处理建议:请及时调整对应节点的最大文件打开数file_max,修改方法参考 Linux最大打开文件数
组件告警外置库连通性告警

异常项:应用节点和外置数据库连通异常

触发时长:异常状态持续超过30s

处理建议:请检查外置库状态是否异常,如无异常请排查异常节点与外置数据库的网络问题
外置库状态异常告警

异常项:外置库状态异常

触发时长:异常状态持续超过30s

处理建议:请尽快检查外置库状态并恢复外置库访问,避免影响帆软应用提供服务
状态服务器连通性告警

异常项:应用节点和状态服务器Redis连通异常

触发时长:异常状态持续超过30s

处理建议:请检查状态服务器Redis是否异常,如无异常请排查异常节点与状态服务器的网络问题
状态服务器内存占用过高

异常项:状态服务器Redis内存使用率超过85%

触发时长:异常状态持续超过5min

处理建议:请排查状态服务器Redis使用是否正常,如使用正常建议后续增加Redis内存配置避免Redis压力过大影响帆软应用提供服务
状态服务器状态异常告警异常项:状态服务器Redis异常
触发时长:异常状态持续超过30s
处理建议:请尽快检查状态服务器并恢复状态服务器使用,避免影响帆软应用提供服务
文件服务器连通性告警异常项:应用节点和文件服务器连通异常 
触发时长:异常状态持续超过30s
处理建议:请检查文件服务器是否异常,如无异常请排查异常节点与文件服务器的网络问题
Nginx状态异常告警异常项:Nginx状态异常
触发时长:异常状态持续超过30s
处理建议:请尽快检查Nginx并恢复Nginx使用,避免影响帆软应用提供服务
运维平台挂载磁盘预警异常项:运维平台挂载磁盘剩余空间不足15%

触发时长:异常状态持续超过5min

处理建议:运维平台挂载磁盘剩余空间不足15%,磁盘空间不足可能导致运维平台出现故障,请及时清理磁盘或增加磁盘空间

2.2 管理任务

1)任务状态

告警任务有四种状态:

  • 正常:任务已启用,适用项目均未触发限制项。

  • 异常:任务已启用,存在适用项目触发了限制项,但未达到告警通知的持续时长。

  • 告警:任务已启用,存在适用项目触发了限制项,且已达到告警通知的持续时长。

  • 禁用:任务未启用

2)任务启停

  • 对于默认告警,支持启动、禁用操作。

  • 不支持删除、修改默认告警任务,不支持修改任务分组。

3)查看告警任务详情

  • 按照分组存放并展示每个任务的简要信息:告警名称、当前状态、适用项目、标签、触发条件、是否启用

  • 可点击「查看告警详情」按钮,查看本条告警任务的详细信息和告警通知模板

4)查看告警记录

  • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

3. 自定义告警编辑

3.1 添加任务

1)创建告警

管理员登录FineOps运维平台,点击「监控与告警>告警管理>告警任务>自定义告警」,点击「创建告警」按钮,进入配置界面。

2)告警任务设置

在「告警任务设置」页面,支持设置任务的基础信息和告警通知的文本。

点击「保存」,完成任务设置。

设置项说明
告警名称该告警任务的名称
不支持重名
通用项目可下拉选择该告警任务生效的项目,支持多选
为空代表不限制,全选项目
分组
可下拉选择该告警任务所属的分组
支持添加分组,分组名称不支持重复,不支持多选
如添加了分组,但不存在任何一个告警任务使用到该分组,保存任务时该分组不会保存
标签可下拉选择该告警任务的标签
支持添加标签,标签名称不支持重复,不支持多选
如添加了标签,但不存在任何一个告警任务使用到该标签,保存任务时该标签不会保存
触发条件

支持对以下指标设置告警判断条件和触发时长

  • 服务器内存使用率

  • 服务器CPU使用率

  • 服务器剩余文件打开数

  • 近5分钟FullGC总耗时

  • 近5分钟FullGC次数

  • 应用内存使用率

  • 应用CPU使用率

  • 应用剩余文件打开数

  • 应用工程目录磁盘使用率

  • 应用http线程池使用率

通知文本

设置告警通知中的文本内容

支持输入文本和参数,支持换行,支持的参数包括:

  • 项目名称:{{ $labels.target_belong_app }}

  • 节点名称:{{ $labels.ClusterNodeName }}

  • 节点地址:{{ $labels.instance }}

3)效果预览

  • 保存的告警任务,展示在「自定义告警」的指定分组中。

  • 展示该告警任务的适用项目、标签、触发条件、任务状态等信息,任务默认启用。

3.2 管理任务

1)任务状态

告警任务有四种状态:

  • 正常:任务已启用,适用项目均未触发限制项。

  • 异常:任务已启用,存在适用项目触发了限制项,但未达到告警通知的持续时长。

  • 告警:任务已启用,存在适用项目触发了限制项,且已达到告警通知的持续时长。

  • 禁用:任务未启用

2)任务启停删除

  • 对于自定义告警,支持启动、禁用和删除操作。

3)修改分组名称

  • 对于自定义告警分组,支持修改分组名称。

4)查看告警记录

  • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

5)编辑告警

  • 可点击「编辑告警」按钮,编辑本条告警任务的基础信息和告警通知文本。

  • 编辑告警,不改变告警任务原本的启停状态。