「負載過高警報——節點無回應」更名為「應用卡頓警報——節點無回應」,降低使用者理解成本
「應用卡頓警報——節點無回應」觸發邏輯優化:異常狀態持續觸發時長從30s優化為60s
1)新增預設警報
應用告警:CodeCache使用率警報、MetaSpace使用率警報
伺服器警報:伺服器磁碟空間預警、Inode使用率預警
2)自訂警報新增指標
應用指標:CodeCache使用率、MetaSpace使用率
伺服器指標:伺服器各目錄磁碟空間使用率、Inode使用率
新增預設警報「註冊服務狀態異常警報」,防止註冊組件未啟動導致業務使用異常
當維運專案遇到高負載、當機風險、磁碟空間不足等問題時,需要即時通知管理者。
FineOps提供警報管理功能,提供內建預設警報任務。使用者也可自訂異常觸發條件和達成警報的持續時間。
為了方便使用者對專案進行管理監視,維運平台內建了一些警報規則,作用於維運平台中的所有專案。
管理者登入維運平台,點選「警報中心>警報任務>預設警報」,可查詢所有內建預設警報規則。如下圖所示:
維運平台內建規則如下表所示,不支援更改。
異常項:此應用節點開啟檔案數已超過85%,存在導致應用節點故障的風險
觸發時長:異常狀態持續超過2min
應用卡頓警報——節點無回應
異常項:應用節點回應異常
觸發時長:異常狀態持續超過60s
異常項:應用節點發生當機
異常項:http執行緒數已經使用超過85%,可能導致應用請求阻擋
觸發時長:異常狀態持續超過30s
異常項:https執行緒數已經使用超過85%,可能導致應用請求阻擋
處理建議:請排查是否由於系統使用併發量增加導致,如因併發過大,請儘快提升https執行緒最大值,如非併發增大可能出現了業務異常,建議使用堆疊分析定位
異常項:工程磁碟剩餘空間不足15%
觸發時長:異常狀態持續超過5min
異常項:應用節點FullGC發生異常
觸發時長:5min內,特標度籤target_belong_app和instance下的JVM全量垃圾回收,次數總和大於3次且時間總和超過 50s
異常項:應用節點CodeCache使用率已超過80%,存在導致應用節點效能問題的風險
異常項:應用節點MetaSpace使用率已超過80%,存在導致應用節點故障的風險
異常項:專案當前效能指數過低,可能出現存取異常(效能指數APDEX小於90%且CPM每分鐘交易數大於 100)
觸發時長:異常狀態持續超過3min
異常項:伺服器cpu使用率持續過高(超過90%)
觸發時長:異常狀態持續超過6min
異常項:伺服器記憶體佔用持續過高(超過90%)
處理建議:請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器,避免影響系統使用
異常項:伺服器開啟檔案數已超過85%,存在導致系統故障的風險
異常項:伺服器磁碟目錄剩餘空間不足15%
異常項:伺服器inode使用率超過80%
異常項:應用節點和外接資料庫連通異常
異常項:外置庫狀態異常
異常項:應用節點和狀態伺服器Redis連通異常
異常項:狀態伺服器Redis記憶體使用率超過85%
處理建議:維運平台掛載磁碟剩餘空間不足15%,磁碟空間不足可能導致維運平台出現故障,請即時清理磁碟或增加磁碟空間
異常項:註冊服務狀態異常
觸發時長:專案中存在.*license_server組件,且組件異常狀態持續超過60s
處理建議:請檢查註冊服務狀態是否異常,避免影響帆軟應用提供服務
1)任務狀態
警報任務有四種狀態:
正常:任務已啟動,所有專案均未觸發限制項。
異常:任務已啟動,存在專案觸發了限制項,但未達到警報通知的持續時長。
警報:任務已啟動,存在專案觸發了限制項,且已達到警報通知的持續時長。
禁用:任務未啟動
2)任務啟停
對於預設警報,支援啟動、禁用操作。
不支援刪除、修改預設警報任務,不支援修改任務分組。
3)查看警報任務詳情
按照分組存放並展示每個任務的簡要資訊:警報名稱、當前狀態、適用專案、標籤、觸發條件、是否啟動
可點選「查看警報詳情」按鈕,查看本條警報任務的詳細資訊和警報通知範本
4)查看警報記錄
可點選「查看警報記錄」按鈕,查看曾觸發本條警報任務的明細資訊,瞭解觸發專案、觸發時間等。
維運平台支援兩種方式新增自訂警報任務。
1)對單個/多個/所有維運專案新增同一警報任務
管理者登入維運平台,點選「警報中心>警報任務>自訂警報」,即可自訂警報任務。
任務可對單個/多個/所有維運專案生效。
2)對指定專案新增警報任務
管理者登入維運平台,選擇指定維運專案,點選「警報>警報任務>自訂警報」,即可自訂警報任務。
任務僅可對該維運專案生效。
1)建立警報
管理者登入FineOps維運平台,點選「警報中心>警報任務>自訂警報」,點選「建立警報」按鈕,進入配置介面。
2)警報任務設定
在「警報任務設定」頁面,支援設定任務的基礎資訊和警報通知的正文。
點選「儲存」,完成任務設定。
支援對以下指標設定警報判斷條件和觸發時長
近五分鐘FullGC總時間
確定垃圾回收程式不會顯著影回應用效能,即時發現和解決潛在的記憶體管理問題,以保持系統的回應速度和穩定性
判斷條件:正整數,單位秒
持續時間:正整數,單位秒/分鐘
近五分鐘FullGC次數
即時識別和解決記憶體管理問題,防止頻繁的垃圾回收導致應用效能下降和系統回應延遲
判斷條件:正整數,單位次數
應用記憶體使用率
防止記憶體泄漏或過度消耗導致的系統當機、效能下降和其他應用資源不足
判斷條件:0~1的小數
應用CPU使用率
確定系統效能和回應速度,防止單個應用佔用過多資源而影響整體系統運作效率
應用剩餘檔案開啟數
防止達到檔案描述符限制而導致應用程式無法開啟新檔案,進而避免潛在的系統錯誤和效能問題
判斷條件:正整數
應用工程目錄磁碟使用率
確定系統效能和穩定性,防止高負載導致的效能下降和潛在的系統故障
CodeCache使用率
Code Cache的空間不足,可能會導致JVM無法正常運作,導致效能持續降低
元資料空間(Metaspace)是 Java 虛擬機(JVM)用於儲存類元資料的區域
保留一定的閒置空間可以提高讀寫效率,減少碎片化,保障系統的回應速度
確定請求處理的高效性,防止執行緒池耗盡導致請求延遲或拒絕,保障應用的效能和可用性
防止記憶體不足導致的系統效能下降、應用當機或服務中斷,確定伺服器穩定高效運行
伺服器CPU使用率
防止過度負載導致的效能瓶頸,確定伺服器的高效運作和即時回應
伺服器剩餘檔案開啟數
防止檔案描述符耗盡,避免系統無法開啟新檔案而導致應用故障和服務中斷
防止磁碟空間耗盡導致的資料寫入失敗和系統當機,確定伺服器穩定運行
防止Inode耗盡導致無法建立新檔案或目錄,進而避免系統或應用程式出現故障
監測計算引擎正在執行的任務數量
判斷條件:任務數量,正整數
監測計算引擎等待執行的任務數量
監測GC耗時
判斷條件:GC時長,正整數,單位秒
監測JVM當前堆內記憶體使用率
用於判斷starrocks組件的FE存活節點數是否少了
判斷條件:FE節點存活個數,正整數
加速引擎BE存活節點數
用於判斷starrocks組件的BE存活節點數是否少了
判斷條件:BE節點存活個數
加速引擎FE連結數
監測連結數壓力
判斷條件:各FE節點當前連結數
加速引擎FE查詢QPS
監測查詢併發
判斷條件:各FE節點每秒查詢數
加速引擎FE請求RPS
監測請求併發
判斷條件:各FE節點每秒請求數
加速引擎FE99分位查詢耗時(ms)
效能警報
判斷條件:各FE節點處理速度最快的99%的操作中,最長的延遲時間,單位為毫秒
加速引擎FE記憶體使用率
記憶體警報
判斷條件:各FE節點的記憶體使用佔比,小於1
加速引擎BE可用磁碟空間
磁碟警報
判斷條件:各BE節點儲存目錄的磁碟可用空間,單位bytes
加速引擎BE-Compaction Score
監測BE的特徵指標,影響效能
判斷條件:
通常該值需要維持在100以內,而在大部分批量匯入或低頻匯入場景下,該值通常為10-20或者更低
如果該值過高,不僅會影響匯入,還會影響叢集的查詢效能,此時就需要即時的降低匯入頻率
加速引擎BE閒置CPU
CPU警報
判斷條件:BE CPU的閒置佔比,小於1
加速引擎BE記憶體用量
判斷條件:各個BE節點的記憶體使用情況,單位B
設定警報通知中的正文內容
支援輸入正文和參數,支援換行,支援的參數包括:
專案名稱:{{ $labels.target_belong_app }}
節點名稱:{{ $labels.ClusterNodeName }}
節點地址:{{ $labels.instance }}
3)效果預覽
儲存的警報任務,展示在「自訂警報」的指定分組中。
展示該警報任務的適用專案、標籤、觸發條件、任務狀態等資訊,任務預設啟動。
正常:任務已啟動,適用專案均未觸發限制項。
異常:任務已啟動,存在適用專案觸發了限制項,但未達到警報通知的持續時長。
警報:任務已啟動,存在適用專案觸發了限制項,且已達到警報通知的持續時長。
2)任務啟停刪除
對於自訂警報,支援啟動、禁用和刪除操作。
3)修改分組名稱
對於自訂警報分組,支援修改分組名稱。
5)編輯警報
可點選「編輯警報」按鈕,編輯本條警報任務的基礎資訊和警報通知正文。
編輯警報,不改變警報任務原本的啟停狀態。