1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
1.2 应用场景
问题描述:
小明是公司的运维人员,负责管理着多个应用平台。随着应用长时间运行、人员增加,应用磁盘空间不足,长期高负载。
尽管他定期会对应用进行检查,仍然被业务人员反复质问:怎么又出现宕机事故了?怎么又没法访问平台了?
小明很困扰,怎么才能提前感知到这些平台的问题,并且解决这些隐患呢?
解决方案:
小明将这些应用接入到运维平台,通过运维平台的「告警」功能,即可设置告警规则和告警方式。
运维平台检测到触发告警规则(例如某节点负载过高)时,直接发送邮件提醒小明。
小明终于可以在业务用户感知之前,解决这些应用平台的隐患。
2. 索引
功能 | 说明 | 帮助文档 |
---|---|---|
告警任务 | 对于所有运维项目:提供内置的默认告警规则 对于单个运维项目:管理员可自定义异常触发条件和达成告警的持续时间 | 告警任务 |
告警记录 | 告警记录是指在告警管理中,针对运维项目出现异常情况时所触发的告警任务的记录 通过查看告警记录,管理员可以获取关键指标和详细信息,如告警发生时间、告警类型、触发项目等 | 告警记录 |
告警通知设置 | 当触发告警时,支持通过多种方式通知管理员: 邮箱、webhook、企业微信、企业微信机器人、钉钉机器人、飞书机器人 | 告警通知设置 |
3. 告警使用前提
1)告警指标依赖监控获取,因此请务必达成监控使用前提,详情请参见:监控仪表板使用前提
2)告警依赖运维平台组件alertmanager,因此请确保「运维管理>运维组件」中alertmanager组件正常运行