历史版本6 :告警任务 返回文档
编辑时间:
内容长度:图片数:目录数:
修改原因:
1. 概述编辑
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.0 | - |
V1.2 | 支持自定义告警规则 |
V1.5 | 1)告警规则依赖组件从grafana调整为promethues 2)新增多种内置告警规则 |
1.2 应用场景
当应用出现高负载、宕机风险、磁盘空间不足等情况时,需要及时通知管理员。
运维平台内置了一些告警规则,也支持用户自定义告警规则。
2. 内置规则编辑
运维平台内置了多条规则,触发告警规则后会根据配置的告警方式提醒对应责任人。
V1.5及之后版本:
分类 | 规则 | 判断逻辑 |
---|---|---|
应用状态 | 负载过高告警——数值异常 | 异常项:节点负载过高 处理建议:请检查是否存在异常或及时重启,避免影响系统使用 |
负载过高告警——无响应 | 异常项:节点负载过高 处理建议:请检查是否存在异常或及时重启,避免影响系统使用 | |
系统宕机告警——数值异常 | 异常项:节点发生宕机 处理建议:请尽快重启并排查宕机问题,避免影响系统使用 | |
系统宕机告警——无响应 | 异常项:节点发生宕机 处理建议:请尽快重启并排查宕机问题,避免影响系统使用 | |
http线程数阻塞 | 异常项:http线程数阻塞率达到85% 处理建议:当前应用请求阻塞率高,并发过大,请提升http线程最大值 | |
CPU | 服务器cpu预警 | 异常项:服务器cpu过高 处理建议:请检查是否存在异常或及时重启,避免影响系统使用 |
内存 | 服务器内存预警 | 异常项:服务器内存占用过高 处理建议:请检查是否存在异常或及时重启,避免影响系统使用 |
磁盘空间 | logs磁盘空间预警 | 异常项:logs目录磁盘剩余空间不足15% 处理建议:当前服务器logs目录磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间 |
root磁盘空间预警 | 异常项:root磁盘剩余空间不足15% 处理建议:当前服务器root磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间 | |
temp磁盘空间不足 | 异常项:temp磁盘剩余空间不足15% 处理建议:当前服务器temp磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间 | |
备份目录磁盘空间预警 | 异常项:备份目录磁盘剩余空间不足15% 处理建议:当前服务器备份目录磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间 | |
负载均衡 | nginx状态异常告警 | 异常项:nginx状态异常 处理建议:请尽快恢复nginx,避免系统服务使用 |
外置库 | 节点到外置库连接状态告警 | 异常项:机器节点和外置数据库连通异常 处理建议:请尽快恢复外置库使用,避免影响系统服务使用 |
外置库状态异常告警 | 异常项:外置库状态异常 处理建议:请尽快外置库状态,避免影响系统服务使用 | |
状态服务器 | 节点到状态服务器连通状态告警 | 异常项:节点到状态服务器连通状态异常 处理建议:请尽快恢复状态服务器使用,避免影响系统服务使用 |
状态服务器内存占用过高 | 异常项:状态服务器内存使用率超过85%持续5min | |
状态服务器异常告警 | 异常项:状态服务器异常 处理建议:请尽快恢复状态服务器使用,避免影响系统服务使用 | |
文件服务器 | 节点到文件服务器连通状态告警 | 异常项:节点到文件服务器连通状态异常 处理建议:请尽快恢复文件服务器使用,避免影响系统服务使用 |
文件数 | 应用打开文件数不足 | 异常项:打开文件数达到85% 处理建议:当前应用打开文件数高,请及时调整最大文件打开数,修改方法参考 Linux最大打开文件数 |
节点打开文件数不足 | 异常项:打开文件数达到85% 处理建议:当前节点打开文件数高,请及时调整最大文件打开数,修改方法参考 Linux最大打开文件数 |
V1.5之前版本:
规则 | 判断逻辑 |
---|---|
应用高负载告警 | 应用负载分高于100/120或连续两次获取指标失败时进行告警。 |
应用宕机告警 | 应用连续三次负载分高于100/120或连续2分钟获取指标失败时进行告警。 |
磁盘空间不足告警 | 各目录磁盘剩余空间不足10G且总磁盘空间能够正常获取时进行告警。 |
3. 自定义规则编辑
运维平台支持用户自定义增删改告警规则。
管理员登录运维平台,点击「监控与告警>告警管理>告警方式」,支持自定义规则。如下图所示:
注:默认的规则不支持更改,用户可以新增规则并更改。