历史版本6 :告警任务 返回文档
编辑时间: 内容长度:图片数:目录数: 修改原因:

目录:

1. 概述编辑

1.1 版本

运维平台版本
功能变更
V1.0-
V1.2

支持自定义告警规则

V1.5

1)告警规则依赖组件从grafana调整为promethues

2)新增多种内置告警规则

1.2 应用场景

当应用出现高负载、宕机风险、磁盘空间不足等情况时,需要及时通知管理员。

运维平台内置了一些告警规则,也支持用户自定义告警规则。

2. 内置规则编辑

运维平台内置了多条规则,触发告警规则后会根据配置的告警方式提醒对应责任人。

V1.5及之后版本:

分类规则
判断逻辑
应用状态负载过高告警——数值异常异常项:节点负载过高
处理建议:请检查是否存在异常或及时重启,避免影响系统使用
负载过高告警——无响应异常项:节点负载过高
处理建议:请检查是否存在异常或及时重启,避免影响系统使用
系统宕机告警——数值异常异常项:节点发生宕机
处理建议:请尽快重启并排查宕机问题,避免影响系统使用
系统宕机告警——无响应异常项:节点发生宕机
处理建议:请尽快重启并排查宕机问题,避免影响系统使用
http线程数阻塞异常项:http线程数阻塞率达到85%
处理建议:当前应用请求阻塞率高,并发过大,请提升http线程最大值
CPU服务器cpu预警异常项:服务器cpu过高
处理建议:请检查是否存在异常或及时重启,避免影响系统使用
内存服务器内存预警异常项:服务器内存占用过高
处理建议:请检查是否存在异常或及时重启,避免影响系统使用
磁盘空间logs磁盘空间预警

异常项:logs目录磁盘剩余空间不足15%

处理建议:当前服务器logs目录磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间

root磁盘空间预警异常项:root磁盘剩余空间不足15%
处理建议:当前服务器root磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
temp磁盘空间不足异常项:temp磁盘剩余空间不足15%
处理建议:当前服务器temp磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
备份目录磁盘空间预警

异常项:备份目录磁盘剩余空间不足15%

处理建议:当前服务器备份目录磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
负载均衡nginx状态异常告警异常项:nginx状态异常
处理建议:请尽快恢复nginx,避免系统服务使用
外置库节点到外置库连接状态告警

异常项:机器节点和外置数据库连通异常

处理建议:请尽快恢复外置库使用,避免影响系统服务使用

外置库状态异常告警异常项:外置库状态异常
处理建议:请尽快外置库状态,避免影响系统服务使用
状态服务器节点到状态服务器连通状态告警异常项:节点到状态服务器连通状态异常
处理建议:请尽快恢复状态服务器使用,避免影响系统服务使用
状态服务器内存占用过高异常项:状态服务器内存使用率超过85%持续5min
状态服务器异常告警异常项:状态服务器异常
处理建议:请尽快恢复状态服务器使用,避免影响系统服务使用
文件服务器节点到文件服务器连通状态告警异常项:节点到文件服务器连通状态异常
处理建议:请尽快恢复文件服务器使用,避免影响系统服务使用
文件数应用打开文件数不足异常项:打开文件数达到85%
处理建议:当前应用打开文件数高,请及时调整最大文件打开数,修改方法参考 Linux最大打开文件数
节点打开文件数不足

异常项:打开文件数达到85%

处理建议:当前节点打开文件数高,请及时调整最大文件打开数,修改方法参考 Linux最大打开文件数

V1.5之前版本:

规则
判断逻辑
应用高负载告警应用负载分高于100/120或连续两次获取指标失败时进行告警。
应用宕机告警应用连续三次负载分高于100/120或连续2分钟获取指标失败时进行告警。
磁盘空间不足告警各目录磁盘剩余空间不足10G且总磁盘空间能够正常获取时进行告警。

3. 自定义规则编辑

运维平台支持用户自定义增删改告警规则。

管理员登录运维平台,点击「监控与告警>告警管理>告警方式」,支持自定义规则。如下图所示:

注:默认的规则不支持更改,用户可以新增规则并更改。