「负载过高告警——节点无响应」更名为「应用卡顿告警——节点无响应」,降低用户理解成本
「应用卡顿告警——节点无响应」触发逻辑优化:异常状态持续触发时长从30s优化为60s
当运维项目遇到高负载、宕机风险、磁盘空间不足等问题时,需要及时通知管理员。
FineOps提供告警管理功能,提供内置的默认告警任务。用户也可自定义异常触发条件和达成告警的持续时间。
为了方便用户对项目进行管理监控,运维平台内置了一些告警规则,作用于运维平台中的所有项目。
管理员登录运维平台,点击「告警中心>告警任务>默认告警」,可查询所有内置的默认告警规则。如下图所示:
运维平台内置的规则如下表所示,不支持更改。
异常项:此应用节点打开文件数已超过85%,存在导致应用节点故障的风险
触发时长:异常状态持续超过2min
应用卡顿告警——节点无响应
异常项:应用节点响应异常
触发时长:异常状态持续超过60s
异常项:应用节点发生宕机
异常项:http线程数已经使用超过85%,可能导致应用请求阻塞
触发时长:异常状态持续超过30s
异常项:工程磁盘剩余空间不足15%
触发时长:异常状态持续超过5min
异常项:应用节点FullGC发生异常
触发时长:5min内,特定标签target_belong_app和instance下的JVM全量垃圾回收,次数总和大于3次且时间总和超过 50s
异常项:项目当前性能指数过低,可能出现访问异常(性能指数APDEX小于90%且CPM每分钟事务数大于 100)
触发时长:异常状态持续超过3min
异常项:服务器cpu使用率持续过高(超过90%)
触发时长:异常状态持续超过6min
异常项:服务器内存占用持续过高(超过90%)
处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用
异常项:服务器打开文件数已超过85%,存在导致系统故障的风险
异常项:应用节点和外置数据库连通异常
异常项:外置库状态异常
异常项:应用节点和状态服务器Redis连通异常
异常项:状态服务器Redis内存使用率超过85%
处理建议:运维平台挂载磁盘剩余空间不足15%,磁盘空间不足可能导致运维平台出现故障,请及时清理磁盘或增加磁盘空间
1)任务状态
告警任务有四种状态:
正常:任务已启用,所有项目均未触发限制项。
异常:任务已启用,存在项目触发了限制项,但未达到告警通知的持续时长。
告警:任务已启用,存在项目触发了限制项,且已达到告警通知的持续时长。
禁用:任务未启用
2)任务启停
对于默认告警,支持启动、禁用操作。
不支持删除、修改默认告警任务,不支持修改任务分组。
3)查看告警任务详情
按照分组存放并展示每个任务的简要信息:告警名称、当前状态、适用项目、标签、触发条件、是否启用
可点击「查看告警详情」按钮,查看本条告警任务的详细信息和告警通知模板
4)查看告警记录
可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。
运维平台支持两种方式添加自定义告警任务。
1)对单个/多个/所有运维项目添加同一告警任务
管理员登录运维平台,点击「告警中心>告警任务>自定义告警」,即可自定义告警任务。
任务可对单个/多个/所有运维项目生效。
2)对指定项目添加告警任务
管理员登录运维平台,选择指定运维项目,点击「告警>告警任务>自定义告警」,即可自定义告警任务。
任务仅可对该运维项目生效。
1)创建告警
管理员登录FineOps运维平台,点击「监控与告警>告警管理>告警任务>自定义告警」,点击「创建告警」按钮,进入配置界面。
2)告警任务设置
在「告警任务设置」页面,支持设置任务的基础信息和告警通知的文本。
点击「保存」,完成任务设置。
支持对以下指标设置告警判断条件和触发时长
服务器内存使用率
服务器CPU使用率
服务器剩余文件打开数
近5分钟FullGC总耗时
近5分钟FullGC次数
应用内存使用率
应用CPU使用率
应用剩余文件打开数
应用工程目录磁盘使用率
应用http线程池使用率
设置告警通知中的文本内容
支持输入文本和参数,支持换行,支持的参数包括:
项目名称:{{ $labels.target_belong_app }}
节点名称:{{ $labels.ClusterNodeName }}
节点地址:{{ $labels.instance }}
3)效果预览
保存的告警任务,展示在「自定义告警」的指定分组中。
展示该告警任务的适用项目、标签、触发条件、任务状态等信息,任务默认启用。
正常:任务已启用,适用项目均未触发限制项。
异常:任务已启用,存在适用项目触发了限制项,但未达到告警通知的持续时长。
告警:任务已启用,存在适用项目触发了限制项,且已达到告警通知的持续时长。
2)任务启停删除
对于自定义告警,支持启动、禁用和删除操作。
3)修改分组名称
对于自定义告警分组,支持修改分组名称。
5)编辑告警
可点击「编辑告警」按钮,编辑本条告警任务的基础信息和告警通知文本。
编辑告警,不改变告警任务原本的启停状态。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
Submitted successfully
Network busy