反馈已提交

网络繁忙

告警任务

  • 文档创建者:Carly
  • 历史版本:27
  • 最近更新:Carly 于 2024-09-24
  • 1. 概述

    1.1 版本

    运维平台版本
    功能变更
    V1.5.5-
    V1.7.0支持自定义告警
    V1.9.0

    负载过高告警——节点无响应」更名为「应用卡顿告警——节点无响应」,降低用户理解成本

    V1.11.0新增默认告警「运维平台挂载磁盘预警」,覆盖通用运维场景
    V1.14.0

    「应用卡顿告警——节点无响应」触发逻辑优化:异常状态持续触发时长从30s优化为60s

    V2.0.0全局项目告警与单个项目告警拆分管理
    V2.6.0针对BI加速引擎、kafka等组件,新增自定义告警指标类型
    V2.10.0

    1)新增默认告警

    应用告警:CodeCache使用率告警、MetaSpace使用率告警

    服务器告警:服务器磁盘空间预警、Inode使用率预警

    2)自定义告警新增指标

    应用指标:CodeCache使用率、MetaSpace使用率

    服务器指标:服务器各目录磁盘空间使用率Inode使用率

    V2.12.0

    新增默认告警「注册服务状态异常告警」,防止注册组件未启动导致业务使用异常

    1.2 应用场景

    当运维项目遇到高负载、宕机风险、磁盘空间不足等问题时,需要及时通知管理员。

    FineOps提供告警管理功能,提供内置的默认告警任务。用户也可自定义异常触发条件和达成告警的持续时间。

    2. 默认告警

    为了方便用户对项目进行管理监控,运维平台内置了一些告警规则,作用于运维平台中的所有项目。

    管理员登录运维平台,点击「告警中心>告警任务>默认告警」,可查询所有内置的默认告警规则。如下图所示:

    2.1 任务一览

    运维平台内置的规则如下表所示,不支持更改。

    分类告警名称
    判断逻辑
    应用告警应用打开文件数不足

    异常项:此应用节点打开文件数已超过85%,存在导致应用节点故障的风险

    触发时长:异常状态持续超过2min 

    处理建议:请及时调整对应应用的最大文件打开数nofile ,修改方法参考 Linux最大打开文件数

    应用卡顿告警——节点无响应

    异常项:应用节点响应异常

    触发时长:异常状态持续超过60s

    处理建议:请访问应用节点检查其是否存在异常或及时重启异常节点,避免影响系统使用
    系统宕机告警——无响应

    异常项:应用节点发生宕机

    触发时长:异常状态持续超过2min

    处理建议:请尽快重启并排查宕机问题,避免影响系统使用
    http线程数阻塞

    异常项:http线程数已经使用超过85%,可能导致应用请求阻塞

    触发时长:异常状态持续超过30s

    处理建议:请排查是否由于系统使用并发量增加导致,如因并发过大,请尽快提升http线程最大值,如非并发增大可能出现了业务异常,建议使用堆栈分析定位
    https线程数阻塞

    异常项:https线程数已经使用超过85%,可能导致应用请求阻塞

    触发时长:异常状态持续超过30s

    处理建议:请排查是否由于系统使用并发量增加导致,如因并发过大,请尽快提升https线程最大值,如非并发增大可能出现了业务异常,建议使用堆栈分析定位

    工程磁盘空间预警

    异常项:工程磁盘剩余空间不足15%

    触发时长:异常状态持续超过5min

    处理建议:当前服务器工程磁盘剩余空间不足15%,请及时清理磁盘或增加磁盘空间
    FullGC异常

    异常项:应用节点FullGC发生异常

    触发时长:5min内,特定标签target_belong_app和instance下的JVM全量垃圾回收,次数总和大于3次且时间总和超过 50s

    处理建议:当前应用节点发生连续FullGC,且FullGC持续时间过长,可能导致访问出现明显卡顿并有宕机风险,请及时排查系统使用问题并判断是否需要重启恢复使用
    CodeCache使用率告警

    异常项:应用节点CodeCache使用率已超过80%,存在导致应用节点性能问题的风险

    触发时长:异常状态持续超过2min

    处理建议:请及时调整对应应用的CodeCache配置,保证其使用率维持在50%左右或更低
    MetaSpace使用率告警

    异常项:应用节点MetaSpace使用率已超过80%,存在导致应用节点故障的风险

    触发时长:异常状态持续超过2min

    处理建议:请及时调大对应应用的MetaSpace配置,并联系帆软技术人员协助排查
    性能告警应用访问异常

    异常项:项目当前性能指数过低,可能出现访问异常(性能指数APDEX小于90%且CPM每分钟事务数大于 100)

    触发时长:异常状态持续超过3min

    处理建议:请尽快关注系统健康观测页面中的性能指数趋势,如持续降低需确认应用是否出现访问异常,并尽快输出堆栈、dump等日志排查故障或重启恢复使用
    服务器告警服务器cpu预警

    异常项:服务器cpu使用率持续过高(超过90%)

    触发时长:异常状态持续超过6min

    处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用
    服务器内存预警

    异常项:服务器内存占用持续过高(超过90%

    触发时长:异常状态持续超过6min

    处理建议:请检查是否存在异常进程并修复、减少服务器内的业务用量或尽快扩容服务器,避免影响系统使用

    服务器打开文件数不足

    异常项:服务器打开文件数已超过85%,存在导致系统故障的风险

    触发时长:异常状态持续超过2min

    处理建议:请及时调整对应节点的最大文件打开数file_max,修改方法参考 Linux最大打开文件数
    服务器磁盘空间预警

    异常项:服务器磁盘目录剩余空间不足15%

    触发时长:异常状态持续超过6min

    处理建议:此服务器磁盘目录剩余空间不足15%,请及时清理磁盘或增加磁盘空间,避免影响系统使用
    Inode使用率预警

    异常项:服务器inode使用率超过80% 

    触发时长:异常状态持续超过2min

    处理建议:此服务器inode使用率超过80%,如果inode资源耗尽,即使还存在可用空间也无法创建新文件,请尽快联系技术人员协助排查,避免影响系统使用
    组件告警外置库连通性告警

    异常项:应用节点和外置数据库连通异常

    触发时长:异常状态持续超过30s

    处理建议:请检查外置库状态是否异常,如无异常请排查异常节点与外置数据库的网络问题
    外置库状态异常告警

    异常项:外置库状态异常

    触发时长:异常状态持续超过30s

    处理建议:请尽快检查外置库状态并恢复外置库访问,避免影响帆软应用提供服务
    状态服务器连通性告警

    异常项:应用节点和状态服务器Redis连通异常

    触发时长:异常状态持续超过30s

    处理建议:请检查状态服务器Redis是否异常,如无异常请排查异常节点与状态服务器的网络问题
    状态服务器内存占用过高

    异常项:状态服务器Redis内存使用率超过85%

    触发时长:异常状态持续超过5min

    处理建议:请排查状态服务器Redis使用是否正常,如使用正常建议后续增加Redis内存配置避免Redis压力过大影响帆软应用提供服务
    状态服务器状态异常告警异常项:状态服务器Redis异常
    触发时长:异常状态持续超过30s
    处理建议:请尽快检查状态服务器并恢复状态服务器使用,避免影响帆软应用提供服务
    文件服务器连通性告警异常项:应用节点和文件服务器连通异常 
    触发时长:异常状态持续超过30s
    处理建议:请检查文件服务器是否异常,如无异常请排查异常节点与文件服务器的网络问题
    Nginx状态异常告警异常项:Nginx状态异常
    触发时长:异常状态持续超过30s
    处理建议:请尽快检查Nginx并恢复Nginx使用,避免影响帆软应用提供服务
    运维平台挂载磁盘预警异常项:运维平台挂载磁盘剩余空间不足15%

    触发时长:异常状态持续超过5min

    处理建议:运维平台挂载磁盘剩余空间不足15%,磁盘空间不足可能导致运维平台出现故障,请及时清理磁盘或增加磁盘空间

    注册服务状态异常告警

    异常项:注册服务状态异

    触发时长:项目中存在.*license_server组件,且组件异常状态持续超过60s

    处理建议:请检查注册服务状态是否异常,避免影响帆软应用提供服务

    2.2 管理任务

    1)任务状态

    告警任务有四种状态:

    • 正常:任务已启用,所有项目均未触发限制项。

    • 异常:任务已启用,存在项目触发了限制项,但未达到告警通知的持续时长。

    • 告警:任务已启用,存在项目触发了限制项,且已达到告警通知的持续时长。

    • 禁用:任务未启用

    2)任务启停

    • 对于默认告警,支持启动、禁用操作。

    • 不支持删除、修改默认告警任务,不支持修改任务分组。

    3)查看告警任务详情

    • 按照分组存放并展示每个任务的简要信息:告警名称、当前状态、适用项目、标签、触发条件、是否启用

    • 可点击「查看告警详情」按钮,查看本条告警任务的详细信息和告警通知模板

    4)查看告警记录

    • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

    3. 自定义告警

    3.1 添加任务-入口

    运维平台支持两种方式添加自定义告警任务。

    1)对单个/多个/所有运维项目添加同一告警任务

    管理员登录运维平台,点击「告警中心>告警任务>自定义告警」,即可自定义告警任务。

    任务可对单个/多个/所有运维项目生效。

    2)对指定项目添加告警任务

    管理员登录运维平台,选择指定运维项目,点击「告警>告警任务>自定义告警」,即可自定义告警任务。

    任务仅可对该运维项目生效。


    3.2 添加任务-操作

    1)创建告警

    管理员登录FineOps运维平台,点击「监控与告警>告警管理>告警任务>自定义告警」,点击「创建告警」按钮,进入配置界面。

    2)告警任务设置

    在「告警任务设置」页面,支持设置任务的基础信息和告警通知的文本。

    点击「保存」,完成任务设置。

    设置项说明
    告警名称该告警任务的名称
    不支持重名
    通用项目可下拉选择该告警任务生效的项目,支持多选
    为空代表不限制,全选项目
    分组
    可下拉选择该告警任务所属的分组
    支持添加分组,分组名称不支持重复,不支持多选
    如添加了分组,但不存在任何一个告警任务使用到该分组,保存任务时该分组不会保存
    标签可下拉选择该告警任务的标签
    支持添加标签,标签名称不支持重复,不支持多选
    如添加了标签,但不存在任何一个告警任务使用到该标签,保存任务时该标签不会保存
    触发条件

    支持对以下指标设置告警判断条件和触发时长

    指标类型
    指标名称应用场景
    应用指标

    近五分钟FullGC总时间

    确保垃圾回收过程不会显著影响应用性能,及时发现和解决潜在的内存管理问题,以保持系统的响应速度和稳定性

    判断条件:正整数,单位秒

    持续时间:正整数,单位秒/分钟

    近五分钟FullGC次数

    及时识别和解决内存管理问题,防止频繁的垃圾回收导致应用性能下降和系统响应延迟

    判断条件:正整数,单位次数

    持续时间:正整数,单位秒/分钟

    应用内存使用率

    防止内存泄漏或过度消耗导致的系统崩溃、性能下降和其他应用资源不足

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    应用CPU使用率

    确保系统性能和响应速度,防止单个应用占用过多资源而影响整体系统运行效率

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    应用剩余文件打开数

    防止达到文件描述符限制而导致应用程序无法打开新文件,从而避免潜在的系统错误和性能问题

    判断条件:正整数

    持续时间:正整数,单位秒/分钟

    应用工程目录磁盘使用率

    确保系统性能和稳定性,防止高负载导致的性能下降和潜在的系统故障

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    CodeCache使用率

    Code Cache的空间不足,可能会导致JVM无法正常运行,导致性能持续降低

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    MetaSpace使用率

    元数据空间(Metaspace)是 Java 虚拟机(JVM)用于存储类元数据的区域

    保留一定的空闲空间可以提高读写效率,减少碎片化,保障系统的响应速度

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    应用http线程池使用率

    确保请求处理的高效性,防止线程池耗尽导致请求延迟或拒绝,保障应用的性能和可用

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    服务器指标服务器内存使用率

    防止内存不足导致的系统性能下降、应用崩溃或服务中断,确保服务器稳定高效运

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    服务器CPU使用率

    防止过度负载导致的性能瓶颈,确保服务器的高效运行和及时响应

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    服务器剩余文件打开数

    防止文件描述符耗尽,避免系统无法打开新文件而导致应用故障和服务中断

    判断条件:正整数

    持续时间:正整数,单位秒/分钟

    服务器各目录磁盘空间使用率

    防止磁盘空间耗尽导致的数据写入失败和系统崩溃,确保服务器稳定运

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    Inode使用率

    防止Inode耗尽导致无法创建新文件或目录,从而避免系统或应用程序出现故

    判断条件:0~1的小数

    持续时间:正整数,单位秒/分钟

    计算引擎指标计算引擎正在执行的任务数量

    监测计算引擎正在执行的任务数量

    判断条件:任务数量正整数

    计算引擎等待执行的任务数量

    监测计算引擎等待执行的任务数量

    判断条件:任务数量正整数

    kafka指标kafka GC时长

    监测GC耗

    判断条件:GC时长,正整数,单位秒

    kafka内存使用率

    监测JVM当前堆内内存使用

    判断条件:0~1的小数

    加速引擎指标加速引擎FE存活节点

    用于判断starrocks组件的FE存活节点数是否少

    判断条件:FE节点存活个数,正整数

    加速引擎BE存活节点数

    用于判断starrocks组件的BE存活节点数是否少了

    判断条件:BE节点存活个数

    加速引擎FE连接数

    监测连接数压力

    判断条件:各FE节点当前连接数

    加速引擎FE查询QPS

    监测查询并发

    判断条件:各FE节点每秒查询数

    加速引擎FE请求RPS

    监测请求并发

    判断条件:各FE节点每秒请求数

    加速引擎FE99分位查询耗时(ms)

    性能告警

    判断条件:各FE节点处理速度最快的99%的操作中,最长的延迟时间,单位为毫秒

    加速引擎FE内存使用率

    内存告警

    判断条件:各FE节点的内存使用占比,小于1

    加速引擎BE可用磁盘空间

    磁盘告警

    判断条件:各BE节点存储目录的磁盘可用空间,单位bytes

    加速引擎BE-Compaction Score

    监测BE的特征指标,影响性能

    判断条件:

    通常该值需要维持在100以内,而在大部分批量导入或低频导入场景下,该值通常为10-20或者更低

    如果该值过高,不仅会影响导入,还会影响集群的查询性能,此时就需要及时的降低导入频率

    加速引擎BE空闲CPU

    CPU告警

    判断条件:BE CPU的空闲占比,小于1

    加速引擎BE内存用量

    内存告警

    判断条件:各个BE节点的内存使用情况,单位B

    通知文本

    设置告警通知中的文本内容

    支持输入文本和参数,支持换行,支持的参数包括:

    • 项目名称:{{ $labels.target_belong_app }}

    • 节点名称:{{ $labels.ClusterNodeName }}

    • 节点地址:{{ $labels.instance }}

    3)效果预览

    • 保存的告警任务,展示在「自定义告警」的指定分组中。

    • 展示该告警任务的适用项目、标签、触发条件、任务状态等信息,任务默认启用。

    3.2 管理任务

    1)任务状态

    告警任务有四种状态:

    • 正常:任务已启用,适用项目均未触发限制项。

    • 异常:任务已启用,存在适用项目触发了限制项,但未达到告警通知的持续时长。

    • 告警:任务已启用,存在适用项目触发了限制项,且已达到告警通知的持续时长。

    • 禁用:任务未启用

    2)任务启停删除

    • 对于自定义告警,支持启动、禁用和删除操作。

    3)修改分组名称

    • 对于自定义告警分组,支持修改分组名称。

    4)查看告警记录

    • 可点击「查看告警记录」按钮,查看曾触发本条告警任务的明细信息,了解触发项目、触发时间等。

    5)编辑告警

    • 可点击「编辑告警」按钮,编辑本条告警任务的基础信息和告警通知文本。

    • 编辑告警,不改变告警任务原本的启停状态。

    附件列表


    主题: 项目管理
    • 有帮助
    • 没帮助
    • 只是浏览
    • 评价文档,奖励 1 ~ 100 随机 F 豆!

    鼠标选中内容,快速反馈问题

    鼠标选中存在疑惑的内容,即可快速反馈问题,我们将会跟进处理。

    不再提示

    10s后关闭

    联系我们
    在线支持
    获取专业技术支持,快速帮助您解决问题
    工作日9:00-12:00,13:30-17:30在线
    页面反馈
    针对当前网页的建议、问题反馈
    售前咨询
    采购需求/获取报价/预约演示
    或拨打: 400-811-8890 转1
    qr
    热线电话
    咨询/故障救援热线:400-811-8890转2
    总裁办24H投诉:17312781526
    提交页面反馈
    仅适用于当前网页的意见收集,帆软产品问题请在 问答板块提问前往服务平台 获取技术支持