警報任務

  • 最後修改時間:2025-02-06
  • 1. 概述

    1.1 版本

    維運平台版本
    功能變更
    V1.5.5-
    V1.7.0支援自訂警報
    V1.9.0

    負載過高警報——節點無回應」更名為「應用卡頓警報——節點無回應」,降低使用者理解成本

    V1.11.0新增預設警報「維運平台掛載磁碟預警」,改寫通用維運場景
    V1.14.0

    「應用卡頓警報——節點無回應」觸發邏輯優化:異常狀態持續觸發時長從30s優化為60s

    V2.0.0全局專案警報與單個專案警報拆分管理
    V2.6.0針對BI加速引擎、kafka等組件,新增自訂警報指標類型
    V2.10.0

    1)新增預設警報

    應用告警:CodeCache使用率警報、MetaSpace使用率警報

    伺服器警報:伺服器磁碟空間預警、Inode使用率預警

    2)自訂警報新增指標

    應用指標:CodeCache使用率、MetaSpace使用率

    伺服器指標:伺服器各目錄磁碟空間使用率、Inode使用率

    V2.12.0

    新增預設警報「註冊服務狀態異常警報」,防止註冊組件未啟動導致業務使用異常

    1.2 應用場景

    當維運專案遇到高負載、當機風險、磁碟空間不足等問題時,需要即時通知管理者。

    FineOps提供警報管理功能,提供內建預設警報任務。使用者也可自訂異常觸發條件和達成警報的持續時間。

    2. 預設警報

    為了方便使用者對專案進行管理監視,維運平台內建了一些警報規則,作用於維運平台中的所有專案。

    管理者登入維運平台,點選「警報中心>警報任務>預設警報」,可查詢所有內建預設警報規則。如下圖所示:

    2.1 任務一覽

    維運平台內建規則如下表所示,不支援更改。

    分類警報名稱
    判斷邏輯
    應用警報應用開啟檔案數不足

    異常項:此應用節點開啟檔案數已超過85%,存在導致應用節點故障的風險

    觸發時長:異常狀態持續超過2min 

    處理建議:請即時調整對應應用的最大檔案開啟數nofile ,修改方法參考 Linux最大開啟檔案數

    應用卡頓警報——節點無回應

    異常項:應用節點回應異常

    觸發時長:異常狀態持續超過60s

    處理建議:請存取應用節點檢查其是否存在異常或即時重啟異常節點,避免影響系統使用
    系統當機警報——無回應

    異常項:應用節點發生當機

    觸發時長:異常狀態持續超過2min

    處理建議:請儘快重啟並排查當機問題,避免影響系統使用
    http執行緒數阻擋

    異常項:http執行緒數已經使用超過85%,可能導致應用請求阻擋

    觸發時長:異常狀態持續超過30s

    處理建議:請排查是否由於系統使用併發量增加導致,如因併發過大,請儘快提升http執行緒最大值,如非併發增大可能出現了業務異常,建議使用堆疊分析定位
    https執行緒數阻擋

    異常項:https執行緒數已經使用超過85%,可能導致應用請求阻擋

    觸發時長:異常狀態持續超過30s

    處理建議:請排查是否由於系統使用併發量增加導致,如因併發過大,請儘快提升https執行緒最大值,如非併發增大可能出現了業務異常,建議使用堆疊分析定位

    工程磁碟空間預警

    異常項:工程磁碟剩餘空間不足15%

    觸發時長:異常狀態持續超過5min

    處理建議:當前伺服器工程磁碟剩餘空間不足15%,請即時清理磁碟或增加磁碟空間
    FullGC異常

    異常項:應用節點FullGC發生異常

    觸發時長:5min內,特標度籤target_belong_app和instance下的JVM全量垃圾回收,次數總和大於3次且時間總和超過 50s

    處理建議:當前應用節點發生連續FullGC,且FullGC持續時間過長,可能導致存取出現明顯卡頓並有當機風險,請即時排查系統使用問題並判斷是否需要重啟恢復使用
    CodeCache使用率警報

    異常項:應用節點CodeCache使用率已超過80%,存在導致應用節點效能問題的風險

    觸發時長:異常狀態持續超過2min

    處理建議:請即時調整對應應用的CodeCache配置,保證其使用率維持在50%左右或更低
    MetaSpace使用率警報

    異常項:應用節點MetaSpace使用率已超過80%,存在導致應用節點故障的風險

    觸發時長:異常狀態持續超過2min

    處理建議:請即時調大對應應用的MetaSpace配置,並聯系帆軟技術人員協助排查
    效能警報應用存取異常

    異常項:專案當前效能指數過低,可能出現存取異常(效能指數APDEX小於90%且CPM每分鐘交易數大於 100)

    觸發時長:異常狀態持續超過3min

    處理建議:請儘快關注系統健康觀測頁面中的效能指數趨勢,如持續降低需確認應用是否出現存取異常,並儘快匯出堆疊、dump等日誌排查故障或重啟恢復使用
    伺服器警報伺服器cpu預警

    異常項:伺服器cpu使用率持續過高(超過90%)

    觸發時長:異常狀態持續超過6min

    處理建議:請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器,避免影響系統使用
    伺服器記憶體預警

    異常項:伺服器記憶體佔用持續過高(超過90%

    觸發時長:異常狀態持續超過6min

    處理建議:請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器,避免影響系統使用

    伺服器開啟檔案數不足

    異常項:伺服器開啟檔案數已超過85%,存在導致系統故障的風險

    觸發時長:異常狀態持續超過2min

    處理建議:請即時調整對應節點的最大檔案開啟數file_max,修改方法參考 Linux最大開啟檔案數
    伺服器磁碟空間預警

    異常項:伺服器磁碟目錄剩餘空間不足15%

    觸發時長:異常狀態持續超過6min

    處理建議:此伺服器磁碟目錄剩餘空間不足15%,請即時清理磁碟或增加磁碟空間,避免影響系統使用
    Inode使用率預警

    異常項:伺服器inode使用率超過80% 

    觸發時長:異常狀態持續超過2min

    處理建議:此伺服器inode使用率超過80%,如果inode資源耗盡,即使還存在可用空間也無法建立新檔案,請儘快聯絡技術人員協助排查,避免影響系統使用
    組件警報外置庫連結性警報

    異常項:應用節點和外接資料庫連通異常

    觸發時長:異常狀態持續超過30s

    處理建議:請檢查外置庫狀態是否異常,如無異常請排查異常節點與外接資料庫的網路問題
    外置庫狀態異常警報

    異常項:外置庫狀態異常

    觸發時長:異常狀態持續超過30s

    處理建議:請儘快檢查外置庫狀態並恢復外置庫存取,避免影響帆軟應用提供服務
    狀態伺服器連結性警報

    異常項:應用節點和狀態伺服器Redis連通異常

    觸發時長:異常狀態持續超過30s

    處理建議:請檢查狀態伺服器Redis是否異常,如無異常請排查異常節點與狀態伺服器的網路問題
    狀態伺服器記憶體佔用過高

    異常項:狀態伺服器Redis記憶體使用率超過85%

    觸發時長:異常狀態持續超過5min

    處理建議:請排查狀態伺服器Redis使用是否正常,如使用正常建議後續增加Redis記憶體配置避免Redis壓力過大影響帆軟應用提供服務
    狀態伺服器狀態異常警報異常項:狀態伺服器Redis異常
    觸發時長:異常狀態持續超過30s
    處理建議:請儘快檢查狀態伺服器並恢復狀態伺服器使用,避免影響帆軟應用提供服務
    檔案伺服器連結性警報異常項:應用節點和檔案伺服器連通異常 
    觸發時長:異常狀態持續超過30s
    處理建議:請檢查檔案伺服器是否異常,如無異常請排查異常節點與檔案伺服器的網路問題
    Nginx狀態異常警報異常項:Nginx狀態異常
    觸發時長:異常狀態持續超過30s
    處理建議:請儘快檢查Nginx並恢復Nginx使用,避免影響帆軟應用提供服務
    維運平台掛載磁碟預警異常項:維運平台掛載磁碟剩餘空間不足15%

    觸發時長:異常狀態持續超過5min

    處理建議:維運平台掛載磁碟剩餘空間不足15%,磁碟空間不足可能導致維運平台出現故障,請即時清理磁碟或增加磁碟空間

    註冊服務狀態異常警報

    異常項:註冊服務狀態異

    觸發時長:專案中存在.*license_server組件,且組件異常狀態持續超過60s

    處理建議:請檢查註冊服務狀態是否異常,避免影響帆軟應用提供服務

    2.2 管理任務

    1)任務狀態

    警報任務有四種狀態:

    • 正常:任務已啟動,所有專案均未觸發限制項。

    • 異常:任務已啟動,存在專案觸發了限制項,但未達到警報通知的持續時長。

    • 警報:任務已啟動,存在專案觸發了限制項,且已達到警報通知的持續時長。

    • 禁用:任務未啟動

    2)任務啟停

    • 對於預設警報,支援啟動、禁用操作。

    • 不支援刪除、修改預設警報任務,不支援修改任務分組。

    3)查看警報任務詳情

    • 按照分組存放並展示每個任務的簡要資訊:警報名稱、當前狀態、適用專案、標籤、觸發條件、是否啟動

    • 可點選「查看警報詳情」按鈕,查看本條警報任務的詳細資訊和警報通知範本

    4)查看警報記錄

    • 可點選「查看警報記錄」按鈕,查看曾觸發本條警報任務的明細資訊,瞭解觸發專案、觸發時間等。

    3. 自訂警報

    3.1 新增任務-入口

    維運平台支援兩種方式新增自訂警報任務。

    1)對單個/多個/所有維運專案新增同一警報任務

    管理者登入維運平台,點選「警報中心>警報任務>自訂警報」,即可自訂警報任務。

    任務可對單個/多個/所有維運專案生效。

    2)對指定專案新增警報任務

    管理者登入維運平台,選擇指定維運專案,點選「警報>警報任務>自訂警報」,即可自訂警報任務。

    任務僅可對該維運專案生效。


    3.2 新增任務-操作

    1)建立警報

    管理者登入FineOps維運平台,點選「警報中心>警報任務>自訂警報」,點選「建立警報」按鈕,進入配置介面。

    2)警報任務設定

    在「警報任務設定」頁面,支援設定任務的基礎資訊和警報通知的正文。

    點選「儲存」,完成任務設定。

    設定項說明
    警報名稱該警報任務的名稱
    不支援重名
    通用專案可下拉選擇該警報任務生效的專案,支援多選
    為空代表不限制,全選專案
    分組
    可下拉選擇該警報任務所屬的分組
    支援新增分組,分組名稱不支援重複,不支援多選
    如新增了分組,但不存在任何一個警報任務使用到該分組,儲存任務時該分組不會儲存
    標籤可下拉選擇該警報任務的標籤
    支援新增標籤,標籤名稱不支援重複,不支援多選
    如新增了標籤,但不存在任何一個警報任務使用到該標籤,儲存任務時該標籤不會儲存
    觸發條件

    支援對以下指標設定警報判斷條件和觸發時長

    指標類型
    指標名稱應用場景
    應用指標

    近五分鐘FullGC總時間

    確定垃圾回收程式不會顯著影回應用效能,即時發現和解決潛在的記憶體管理問題,以保持系統的回應速度和穩定性

    判斷條件:正整數,單位秒

    持續時間:正整數,單位秒/分鐘

    近五分鐘FullGC次數

    即時識別和解決記憶體管理問題,防止頻繁的垃圾回收導致應用效能下降和系統回應延遲

    判斷條件:正整數,單位次數

    持續時間:正整數,單位秒/分鐘

    應用記憶體使用率

    防止記憶體泄漏或過度消耗導致的系統當機、效能下降和其他應用資源不足

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    應用CPU使用率

    確定系統效能和回應速度,防止單個應用佔用過多資源而影響整體系統運作效率

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    應用剩餘檔案開啟數

    防止達到檔案描述符限制而導致應用程式無法開啟新檔案,進而避免潛在的系統錯誤和效能問題

    判斷條件:正整數

    持續時間:正整數,單位秒/分鐘

    應用工程目錄磁碟使用率

    確定系統效能和穩定性,防止高負載導致的效能下降和潛在的系統故障

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    CodeCache使用率

    Code Cache的空間不足,可能會導致JVM無法正常運作,導致效能持續降低

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    MetaSpace使用率

    元資料空間(Metaspace)是 Java 虛擬機(JVM)用於儲存類元資料的區域

    保留一定的閒置空間可以提高讀寫效率,減少碎片化,保障系統的回應速度

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    應用http執行緒池使用率

    確定請求處理的高效性,防止執行緒池耗盡導致請求延遲或拒絕,保障應用的效能和可用

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    伺服器指標伺服器記憶體使用率

    防止記憶體不足導致的系統效能下降、應用當機或服務中斷,確定伺服器穩定高效運

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    伺服器CPU使用率

    防止過度負載導致的效能瓶頸,確定伺服器的高效運作和即時回應

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    伺服器剩餘檔案開啟數

    防止檔案描述符耗盡,避免系統無法開啟新檔案而導致應用故障和服務中斷

    判斷條件:正整數

    持續時間:正整數,單位秒/分鐘

    伺服器各目錄磁碟空間使用率

    防止磁碟空間耗盡導致的資料寫入失敗和系統當機,確定伺服器穩定運

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    Inode使用率

    防止Inode耗盡導致無法建立新檔案或目錄,進而避免系統或應用程式出現故

    判斷條件:0~1的小數

    持續時間:正整數,單位秒/分鐘

    計算引擎指標計算引擎正在執行的任務數量

    監測計算引擎正在執行的任務數量

    判斷條件:任務數量,正整數

    計算引擎等待執行的任務數量

    監測計算引擎等待執行的任務數量

    判斷條件:任務數量,正整數

    kafka指標kafka GC時長

    監測GC耗

    判斷條件:GC時長,正整數,單位秒

    kafka記憶體使用率

    監測JVM當前堆內記憶體使用

    判斷條件:0~1的小數

    加速引擎指標加速引擎FE存活節點

    用於判斷starrocks組件的FE存活節點數是否少

    判斷條件:FE節點存活個數,正整數

    加速引擎BE存活節點數

    用於判斷starrocks組件的BE存活節點數是否少了

    判斷條件:BE節點存活個數

    加速引擎FE連結數

    監測連結數壓力

    判斷條件:各FE節點當前連結數

    加速引擎FE查詢QPS

    監測查詢併發

    判斷條件:各FE節點每秒查詢數

    加速引擎FE請求RPS

    監測請求併發

    判斷條件:各FE節點每秒請求數

    加速引擎FE99分位查詢耗時(ms)

    效能警報

    判斷條件:各FE節點處理速度最快的99%的操作中,最長的延遲時間,單位為毫秒

    加速引擎FE記憶體使用率

    記憶體警報

    判斷條件:各FE節點的記憶體使用佔比,小於1

    加速引擎BE可用磁碟空間

    磁碟警報

    判斷條件:各BE節點儲存目錄的磁碟可用空間,單位bytes

    加速引擎BE-Compaction Score

    監測BE的特徵指標,影響效能

    判斷條件:

    通常該值需要維持在100以內,而在大部分批量匯入或低頻匯入場景下,該值通常為10-20或者更低

    如果該值過高,不僅會影響匯入,還會影響叢集的查詢效能,此時就需要即時的降低匯入頻率

    加速引擎BE閒置CPU

    CPU警報

    判斷條件:BE CPU的閒置佔比,小於1

    加速引擎BE記憶體用量

    記憶體警報

    判斷條件:各個BE節點的記憶體使用情況,單位B

    通知正文

    設定警報通知中的正文內容

    支援輸入正文和參數,支援換行,支援的參數包括:

    • 專案名稱:{{ $labels.target_belong_app }}

    • 節點名稱:{{ $labels.ClusterNodeName }}

    • 節點地址:{{ $labels.instance }}

    3)效果預覽

    • 儲存的警報任務,展示在「自訂警報」的指定分組中。

    • 展示該警報任務的適用專案、標籤、觸發條件、任務狀態等資訊,任務預設啟動。

    3.2 管理任務

    1)任務狀態

    警報任務有四種狀態:

    • 正常:任務已啟動,適用專案均未觸發限制項。

    • 異常:任務已啟動,存在適用專案觸發了限制項,但未達到警報通知的持續時長。

    • 警報:任務已啟動,存在適用專案觸發了限制項,且已達到警報通知的持續時長。

    • 禁用:任務未啟動

    2)任務啟停刪除

    • 對於自訂警報,支援啟動、禁用和刪除操作。

    3)修改分組名稱

    • 對於自訂警報分組,支援修改分組名稱。

    4)查看警報記錄

    • 可點選「查看警報記錄」按鈕,查看曾觸發本條警報任務的明細資訊,瞭解觸發專案、觸發時間等。

    5)編輯警報

    • 可點選「編輯警報」按鈕,編輯本條警報任務的基礎資訊和警報通知正文。

    • 編輯警報,不改變警報任務原本的啟停狀態。

    附件列表


    主題: 專案管理
    已經是第一篇
    已經是最後一篇
    • 有幫助
    • 沒幫助
    • 只是瀏覽