1. 概述
1.1 版本
运维平台版本 | 功能变更 |
---|---|
V1.5.5 | - |
V1.7.0 | 告警方式页面视觉优化,功能无变更 |
V1.10.0 | 新增支持告警类型:企业微信机器人、钉钉机器人、飞书机器人 |
V2.3.0 | 优化告警邮箱发件人「登录名称」配置,默认与发件人地址联动 |
1.2 应用场景
在应用程序出现高负载、宕机风险、磁盘空间不足等重要事件时,需要确保管理员及时收到关键的告警信息,以便能够快速响应和处理问题,从而最大限度地减少应用程序的中断时间和减轻潜在的损失。
支持通过多种方式通知管理员:邮箱、webhook、企业微信、企业微信机器人、钉钉机器人、飞书机器人。
注:本文设置的所有告警方式,对运维平台中的所有项目生效,暂不支持对指定项目配置告警通知对象。
2. 邮箱告警
如需使用邮箱告警,需配置发件人和收件人。
2.1 配置发件人
发邮件,需要有一个发件人,否则发送动作无法完成。
1)管理员登录「运维平台」,点击「告警中心>告警通知设置」。
2)点击「添加发件人」,配置发件人账户,点击「确定」。
注1:发件人邮箱类型不同,配置步骤可能不完全相同,具体请参见:邮箱。
注2:「登录名称」配置项,即为发件人姓名,默认值为发件人地址,手动更改后不再与发件人地址联动调整。
注3:配置完成后,请点击「发送测试邮件」,确保邮箱可使用。
3)设置「系统默认发件人」。
2.2 配置告警收件人
发邮件,需要配置收件人,接收告警信息。
1)管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
2)设置告警类型为「email」,设置告警对象名称和收件人地址,点击「确定」,点击「保存」。如下图所示:
注:配置完成后,请点击「发送测试邮件」,确保邮箱可使用。
2.3 效果预览
当FineOps监测到项目触发告警任务后,发送邮件给收件人。如下图所示:
告警推送频率:
首次触发某项目的某告警项时,即刻推送给接收人。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。
3. webhook告警
3.1 配置告警对象
1)准备 Webhook 的 URL
管理员需要先准备好一个 Webhook 的 url,当有新数据的告警消息时,运维平台会往这个 url 发数据,提醒用户告警。
由于各人诉求不同,帆软不提供 Webhook 的 url 搭建获取步骤,请自行准备。
2)添加告警对象
管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
设置告警类型为「webhook」,设置告警对象名称和 Webhook 的相关信息。
注:若 Webhook 的接口存在验证,需要配置用户名及密码。
3)发送测试信息
点击「发送测试邮件」,访问 Webhook 的 url,确保收到测试通知,确保Webhook可使用。
4)保存
点击「确定」,即可完成webhook告警对象的配置。
3.2 效果预览
当FineOps监测到项目触发告警任务后,发送消息到 Webhook 的 url,如下图所示:
告警推送频率:
首次触发某项目的某告警项时,即刻推送给Webhook。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。
注:此处附上一个告警内容示例。仅供参考:
点击展开更多 |
{ "receiver": "fine_channel", "status": "firing", "alerts": [ { "status": "firing", "labels": { "alertname": "系统宕机告警——无响应", "instance": "192.168.101.82:8085", "job": "app_schedule__fb2ef781-9133-464c-bc65-90ad005929e6", "source": "default", "target_belong_app": "fr11" }, "annotations": { "description": "项目:fr11 \n应用节点:192.168.101.82:8085 \n异常项:应用节点发生宕机 \n处理建议:请尽快重启并排查宕机问题,避免影响系统使用" }, "startsAt": "2023-08-24T06:38:57.192Z", "endsAt": "0001-01-01T00:00:00Z", "generatorURL": "http://42956542b88e:9090/graph?g0.expr=up%7Bjob%3D~%22.%2Aapp_schedule.%2A%22%7D+%3D%3D+0&g0.tab=1", "fingerprint": "63131302d98ec860" }, { "status": "firing", "labels": { "alertname": "负载过高告警——节点无响应", "instance": "192.168.101.82:8085", "job": "app_schedule__fb2ef781-9133-464c-bc65-90ad005929e6", "source": "default", "target_belong_app": "fr11" }, "annotations": { "description": "项目:fr11 \n应用节点:192.168.101.82:8085 \n异常项:应用节点响应异常 \n处理建议:请访问应用节点检查其是否存在异常或及时重启异常节点,避免影响系统使用" }, "startsAt": "2023-08-24T06:37:27.192Z", "endsAt": "0001-01-01T00:00:00Z", "generatorURL": "http://42956542b88e:9090/graph?g0.expr=up%7Bjob%3D~%22.%2Aapp_schedule.%2A%22%7D+%3D%3D+0&g0.tab=1", "fingerprint": "8b12f8d538c68f97" }, { "status": "firing", "labels": { "ClusterID": "2076660091", "ClusterNodeID": "5e971cea-8525-73a6-65cf-9efd4c0cb1c5", "ClusterNodeName": "12", "IP": "192.168.5.12", "Port": "8085", "ServletURL": "/webroot/tomcat", "alertname": "工程磁盘空间预警", "instance": "192.168.5.12:8085", "job": "app_schedule__fb2ef781-9133-464c-bc65-90ad005929e6", "source": "default", "target_belong_app": "fr11" }, "annotations": { "description": "项目:fr11 \n应用节点:192.168.5.12:8085 \n异常项:工程磁盘剩余空间不足15% \n处理建议:当前服务器工程磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间" }, "startsAt": "2023-08-24T07:19:57.192Z", "endsAt": "0001-01-01T00:00:00Z", "generatorURL": "http://42956542b88e:9090/graph?g0.expr=disk_use_project+%2F+disk_space_project+%3E+0.85&g0.tab=1", "fingerprint": "e5b6ca5c09f2dbcb" } ], "groupLabels": {}, "commonLabels": { "job": "app_schedule__fb2ef781-9133-464c-bc65-90ad005929e6", "source": "default", "target_belong_app": "fr11" }, "commonAnnotations": {}, "externalURL": "http://3ef45ec83ecc:9093", "version": "4", "groupKey": "{}:{}", "truncatedAlerts": 0 } |
4. 企业微信告警
支持通过企业微信发送告警通知。
管理员需要先在企业微信端创建一个用于发送告警的应用,并获得相关应用参数,方可进入运维平台配置告警对象。
4.1 微信后台创建应用
企业微信管理员登录 企业微信管理后台,在「应用管理」Tab 下点击「创建应用」,如下图所示:
上传应用 logo,填写应用名称,应用介绍选填,设置可见范围,设置完成后,点击「创建应用」,如下图所示:
建议将可见范围设置为部门/标签。若「可见范围」是单独的微信用户,那么在平台「微信管理」的「成员管理」Tab下会看不到用户信息。
4.2 获取微信参数
管理员需要在企业微信后台获取以下参数数据。
参数名 | 含义 |
---|---|
CorpID | 企业ID |
应用AgentID | 用于发送告警的应用的AgentID |
应用Secret | 用于发送告警的应用的Secret |
接收对象 | 用于接收告警的部门或用户ID,请确保该部门/用户在上文设置的应用可见范围内 |
1)CorpID
企业微信管理员登录 企业微信管理后台,在「我的企业」Tab 下,点击「企业信息」,即可获取CorpID。如下图所示:
2)应用AgentID和应用Secret
企业微信管理员登录 企业微信管理后台,在「应用管理」Tab 下,点击刚刚新建的用于发送告警信息的应用,即可获取应用AgentID和应用Secret。如下图所示:
3)接收对象的部门或用户ID
企业微信管理员登录 企业微信管理后台,在「通讯录」Tab 下。
左侧可选择部门,点击后方的按钮,即可查看部门ID
点击单个用户的信息,即可在信息详情页查看用户ID
请确保该部门/用户在上文设置的应用可见范围内。
4.3 配置告警对象
管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
设置告警类型为「企业微信」,填写4.2节获取的相关微信参数信息,点击「确定」。如下图所示:
注1:接收对象仅支持设置单个用户/单个部门。请确保该部门/用户在上文设置的发送告警信息的应用可见范围内。
注2:若部门ID/用户ID为空,则告警信息将推送给应用可见范围内的全部用户。
注3:配置完成后,请点击「发送测试邮件」,确保邮箱可使用。
注4:告警推送频率:
首次触发某项目的某告警项时,即刻推送给接收人。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。
5. 企业微信机器人告警
支持通过企业微信机器人发送告警通知到企业微信群。
管理员需要先在企业微信群中创建并添加一个用于发送告警的机器人,并获得相关Webhook地址,方可进入运维平台配置告警对象。
5.1 微信群创建机器人
1)打开需要推送消息的企业微信群中,点击「设置>添加群机器人>添加机器人」。
2)点击「新创建一个机器人」,设置机器人头像和名称,点击「添加机器人」,即可将机器人添加到企业微信群中。
5.2 获取Webhook地址
在微信群中,点击查看机器人信息,即可获取Webhook地址。如下图所示:
5.3 配置告警对象
管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
自定义告警对象名称,设置告警类型为「企业微信机器人」,填写5.2节获取的Webhook地址,点击「确定」。如下图所示:
5.4 效果预览
当FineOps监测到项目触发告警任务后,机器人会发送消息到所在的企业微信群中,如下图所示:
告警推送频率:
首次触发某项目的某告警项时,即刻推送到群里。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。
6. 钉钉机器人告警
支持通过钉钉机器人发送告警通知到钉钉群。
管理员需要先在钉钉群中创建并添加一个用于发送告警的机器人,并获得相关Webhook地址,方可进入运维平台配置告警对象。
6.1 钉钉群创建机器人
1)打开需要推送消息的钉钉群中,点击「群设置>机器人>添加机器人>自定义」。
2)点击「添加」,设置机器人信息,可开启安全设置中的「加签」,即密钥功能。点击「完成」,即可将机器人添加到钉钉群中。
注:安全设置中,可以自行选择是否设置「加签」。
如使用「自定义关键词」,若告警信息中不包含该关键词,会导致消息接收不到。
6.2 获取webhook地址
在钉钉群中,点击「群设置>机器人」,查看机器人信息,即可获取Webhook地址和加签信息。如下图所示:
6.3 配置告警对象
管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
自定义告警对象名称,设置告警类型为「钉钉机器人」,填写6.2节获取的Webhook地址和加签信息(如未设置加签,可不填写),点击「确定」。如下图所示:
告警推送频率:
首次触发某项目的某告警项时,即刻推送到群里。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。
7. 飞书机器人
支持通过飞书机器人发送告警通知到飞书群。
管理员需要先飞书群中创建并添加一个用于发送告警的机器人,并获得相关Webhook地址,方可进入运维平台配置告警对象。
7.1 飞书群创建机器人
1)打开需要推送消息的飞书群中,点击「设置>群机器人>添加机器人」。
2)选择「自定义机器人」,设置机器人头像、名称和描述,点击「添加」。
3)支持设置「签名校验」等安全设置,点击「完成」,即可将机器人添加到飞书群中。
7.2 获取Webhook地址
在飞书群中,点击「设置>群机器人」。查看机器人信息,即可获取Webhook地址和签名密钥。如下图所示:
7.3 配置告警对象
管理员登录「运维平台」,点击「告警中心>告警通知设置」,点击「添加告警对象」。
自定义告警对象名称,设置告警类型为「飞书机器人」,填写7.2节获取的Webhook地址和签名密钥(如未设置签名校验,可不填写),点击「确定」。如下图所示:
7.4 效果预览
当FineOps监测到项目触发告警任务后,机器人会发送消息到所在的飞书群中,如下图所示:
告警推送频率:
首次触发某项目的某告警项时,即刻推送到群里。
如不及时处理该项目的该告警项,此后每隔一小时再推送一次。
告警推送频率不支持自定义。