警報任務- FineOps繁体帮助文档

最後修改時間：2025-11-11

1. 概述

1.1 版本

維運平台版本	功能變更
V1.5.5	-
V1.7.0	支援自訂警報
V1.9.0	「負載過高警報——節點無回應」更名為「應用卡頓警報——節點無回應」，降低使用者理解成本
V1.11.0	新增預設警報「維運平台掛載磁碟預警」，改寫通用維運場景
V1.14.0	「應用卡頓警報——節點無回應」觸發邏輯優化：異常狀態持續觸發時長從30s優化為60s
V2.0.0	全局專案警報與單個專案警報拆分管理
V2.6.0	針對BI加速引擎、kafka等組件，新增自訂警報指標類型
V2.10.0	1）新增預設警報應用告警：CodeCache使用率警報、MetaSpace使用率警報伺服器警報：伺服器磁碟空間預警、Inode使用率預警 2）自訂警報新增指標應用指標：CodeCache使用率、MetaSpace使用率伺服器指標：伺服器各目錄磁碟空間使用率、Inode使用率
V2.12.0	新增預設警報「註冊服務狀態異常警報」，防止註冊組件未啟動導致業務使用異常
V2.26.0	新增預設警報「引擎當機警報」，減少警報誤報

1.2 應用場景

當維運專案遇到高負載、當機風險、磁碟空間不足等問題時，需要即時通知管理者。

FineOps提供警報管理功能，提供內建預設警報任務。使用者也可自訂異常觸發條件和達成警報的持續時間。

2. 預設警報

為了方便使用者對專案進行管理監視，維運平台內建了一些警報規則，作用於維運平台中的所有專案。

管理者登入維運平台，點選「警報中心>警報任務>預設警報」，可查詢所有內建預設警報規則。如下圖所示：

2.1 任務一覽

維運平台內建規則如下表所示，不支援更改。

分類	警報名稱	判斷邏輯
應用警報	應用開啟檔案數不足	異常項：此應用節點開啟檔案數已超過85%，存在導致應用節點故障的風險觸發時長：異常狀態持續超過2min 處理建議：請即時調整對應應用的最大檔案開啟數nofile ，修改方法參考 Linux最大開啟檔案數
	應用卡頓警報——節點無回應	異常項：應用節點回應異常觸發時長：異常狀態持續超過60s 處理建議：請存取應用節點檢查其是否存在異常或即時重啟異常節點，避免影響系統使用
	系統當機警報——無回應	異常項：應用節點發生當機觸發時長：異常狀態持續超過2min 處理建議：請儘快重啟並排查當機問題，避免影響系統使用
	http執行緒數阻擋	異常項：http執行緒數已經使用超過85%，可能導致應用請求阻擋觸發時長：異常狀態持續超過30s 處理建議：請排查是否由於系統使用併發量增加導致，如因併發過大，請儘快提升http執行緒最大值，如非併發增大可能出現了業務異常，建議使用堆疊分析定位
	https執行緒數阻擋	異常項：https執行緒數已經使用超過85%，可能導致應用請求阻擋觸發時長：異常狀態持續超過30s 處理建議：請排查是否由於系統使用併發量增加導致，如因併發過大，請儘快提升https執行緒最大值，如非併發增大可能出現了業務異常，建議使用堆疊分析定位
	工程磁碟空間預警	異常項：工程磁碟剩餘空間不足15% 觸發時長：異常狀態持續超過5min 處理建議：當前伺服器工程磁碟剩餘空間不足15%，請即時清理磁碟或增加磁碟空間
	FullGC異常	異常項：應用節點FullGC發生異常觸發時長：5min內，特標度籤target_belong_app和instance下的JVM全量垃圾回收，次數總和大於3次且時間總和超過 50s 處理建議：當前應用節點發生連續FullGC，且FullGC持續時間過長，可能導致存取出現明顯卡頓並有當機風險，請即時排查系統使用問題並判斷是否需要重啟恢復使用
	CodeCache使用率警報	異常項：應用節點CodeCache使用率已超過80%，存在導致應用節點效能問題的風險觸發時長：異常狀態持續超過2min 處理建議：請即時調整對應應用的CodeCache配置，保證其使用率維持在50%左右或更低
	MetaSpace使用率警報	異常項：應用節點MetaSpace使用率已超過80%，存在導致應用節點故障的風險觸發時長：異常狀態持續超過2min 處理建議：請即時調大對應應用的MetaSpace配置，並聯系帆軟技術人員協助排查
效能警報	應用存取異常	異常項：專案當前效能指數過低，可能出現存取異常（效能指數APDEX小於90%且CPM每分鐘交易數大於 100）觸發時長：異常狀態持續超過3min 處理建議：請儘快關注系統健康觀測頁面中的效能指數趨勢，如持續降低需確認應用是否出現存取異常，並儘快匯出堆疊、dump等日誌排查故障或重啟恢復使用
伺服器警報	伺服器cpu預警	異常項：伺服器cpu使用率持續過高（超過90%）觸發時長：異常狀態持續超過6min 處理建議：請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器，避免影響系統使用
	伺服器記憶體預警	異常項：伺服器記憶體佔用持續過高（超過90%）觸發時長：異常狀態持續超過6min 處理建議：請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器，避免影響系統使用
	伺服器開啟檔案數不足	異常項：伺服器開啟檔案數已超過85%，存在導致系統故障的風險觸發時長：異常狀態持續超過2min 處理建議：請即時調整對應節點的最大檔案開啟數file_max，修改方法參考 Linux最大開啟檔案數
	伺服器磁碟空間預警	異常項：伺服器磁碟目錄剩餘空間不足15% 觸發時長：異常狀態持續超過6min 處理建議：此伺服器磁碟目錄剩餘空間不足15%，請即時清理磁碟或增加磁碟空間，避免影響系統使用
	Inode使用率預警	異常項：伺服器inode使用率超過80% 觸發時長：異常狀態持續超過2min 處理建議：此伺服器inode使用率超過80%，如果inode資源耗盡，即使還存在可用空間也無法建立新檔案，請儘快交握技術人員協助排查，避免影響系統使用
組件警報	外置庫連結性警報	異常項：應用節點和外接資料庫連通異常觸發時長：異常狀態持續超過30s 處理建議：請檢查外置庫狀態是否異常，如無異常請排查異常節點與外接資料庫的網路問題
	外置庫狀態異常警報	異常項：外置庫狀態異常觸發時長：異常狀態持續超過30s 處理建議：請儘快檢查外置庫狀態並恢復外置庫存取，避免影響帆軟應用提供服務
	狀態伺服器連結性警報	異常項：應用節點和狀態伺服器Redis連通異常觸發時長：異常狀態持續超過30s 處理建議：請檢查狀態伺服器Redis是否異常，如無異常請排查異常節點與狀態伺服器的網路問題
	狀態伺服器記憶體佔用過高	異常項：狀態伺服器Redis記憶體使用率超過85% 觸發時長：異常狀態持續超過5min 處理建議：請排查狀態伺服器Redis使用是否正常，如使用正常建議後續增加Redis記憶體配置避免Redis壓力過大影響帆軟應用提供服務
	狀態伺服器狀態異常警報	異常項：狀態伺服器Redis異常觸發時長：異常狀態持續超過30s 處理建議：請儘快檢查狀態伺服器並恢復狀態伺服器使用，避免影響帆軟應用提供服務
	檔案伺服器連結性警報	異常項：應用節點和檔案伺服器連通異常觸發時長：異常狀態持續超過30s 處理建議：請檢查檔案伺服器是否異常，如無異常請排查異常節點與檔案伺服器的網路問題
	Nginx狀態異常警報	異常項：Nginx狀態異常觸發時長：異常狀態持續超過30s 處理建議：請儘快檢查Nginx並恢復Nginx使用，避免影響帆軟應用提供服務
	維運平台掛載磁碟預警	異常項：維運平台掛載磁碟剩餘空間不足15% 觸發時長：異常狀態持續超過5min 處理建議：維運平台掛載磁碟剩餘空間不足15%，磁碟空間不足可能導致維運平台出現故障，請即時清理磁碟或增加磁碟空間
	註冊服務狀態異常警報	異常項：註冊服務狀態異常觸發時長：專案中存在.*license_server組件，且組件異常狀態持續超過60s 處理建議：請檢查註冊服務狀態是否異常，避免影響帆軟應用提供服務

2.2 管理任務

1）任務狀態

警報任務有四種狀態：

正常：任務已啟動，所有專案均未觸發限制項。
異常：任務已啟動，存在專案觸發了限制項，但未達到警報通知的持續時長。
警報：任務已啟動，存在專案觸發了限制項，且已達到警報通知的持續時長。
禁用：任務未啟動

2）任務啟停

對於預設警報，支援啟動、禁用操作。
不支援刪除、修改預設警報任務，不支援修改任務分組。

3）查看警報任務詳情

按照分組存放並展示每個任務的簡要資訊：警報名稱、當前狀態、適用專案、標籤、觸發條件、是否啟動
可點選「查看警報詳情」按鈕，查看本條警報任務的詳細資訊和警報通知範本

4）查看警報記錄

可點選「查看警報記錄」按鈕，查看曾觸發本條警報任務的明細資訊，瞭解觸發專案、觸發時間等。

3. 自訂警報

3.1 新增任務-入口

維運平台支援兩種方式新增自訂警報任務。

1）對單個/多個/所有維運專案新增同一警報任務

管理者登入維運平台，點選「警報中心>警報任務>自訂警報」，即可自訂警報任務。

任務可對單個/多個/所有維運專案生效。

2）對指定專案新增警報任務

管理者登入維運平台，選擇指定維運專案，點選「警報>警報任務>自訂警報」，即可自訂警報任務。

任務僅可對該維運專案生效。

3.2 新增任務-操作

1）建立警報

管理者登入FineOps維運平台，點選「警報中心>警報任務>自訂警報」，點選「建立警報」按鈕，進入配置介面。

2）警報任務設定

在「警報任務設定」頁面，支援設定任務的基礎資訊和警報通知的正文。

點選「儲存」，完成任務設定。

設定項

說明

警報名稱

該警報任務的名稱
不支援重名

通用專案

可下拉選擇該警報任務生效的專案，支援多選
為空代表不限制，全選專案

分組

可下拉選擇該警報任務所屬的分組
支援新增分組，分組名稱不支援重複，不支援多選
如新增了分組，但不存在任何一個警報任務使用到該分組，儲存任務時該分組不會儲存

標籤

可下拉選擇該警報任務的標籤
支援新增標籤，標籤名稱不支援重複，不支援多選
如新增了標籤，但不存在任何一個警報任務使用到該標籤，儲存任務時該標籤不會儲存

觸發條件

支援對以下指標設定警報判斷條件和觸發時長

指標類型	指標名稱	應用場景
應用指標	近五分鐘FullGC總時間	確定垃圾回收程式不會顯著影回應用效能，即時發現和解決潛在的記憶體管理問題，以保持系統的回應速度和穩定性判斷條件：正整數，單位秒持續時間：正整數，單位秒/分鐘
	近五分鐘FullGC次數	即時識別和解決記憶體管理問題，防止頻繁的垃圾回收導致應用效能下降和系統回應延遲判斷條件：正整數，單位次數持續時間：正整數，單位秒/分鐘
	應用記憶體使用率	防止記憶體泄漏或過度消耗導致的系統當機、效能下降和其他應用資源不足判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	應用CPU使用率	確定系統效能和回應速度，防止單個應用佔用過多資源而影響整體系統運作效率判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	應用剩餘檔案開啟數	防止達到檔案描述符限制而導致應用程式無法開啟新檔案，進而避免潛在的系統錯誤和效能問題判斷條件：正整數持續時間：正整數，單位秒/分鐘
	應用工程目錄磁碟使用率	確定系統效能和穩定性，防止高負載導致的效能下降和潛在的系統故障判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	CodeCache使用率	Code Cache的空間不足，可能會導致JVM無法正常運作，導致效能持續降低判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	MetaSpace使用率	元資料空間（Metaspace）是 Java 虛擬機（JVM）用於儲存類元資料的區域保留一定的閒置空間可以提高讀寫效率，減少碎片化，保障系統的回應速度判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	應用http執行緒池使用率	確定請求處理的高效性，防止執行緒池耗盡導致請求延遲或拒絕，保障應用的效能和可用性判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
伺服器指標	伺服器記憶體使用率	防止記憶體不足導致的系統效能下降、應用當機或服務中斷，確定伺服器穩定高效運行判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	伺服器CPU使用率	防止過度負載導致的效能瓶頸，確定伺服器的高效運作和即時回應判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	伺服器剩餘檔案開啟數	防止檔案描述符耗盡，避免系統無法開啟新檔案而導致應用故障和服務中斷判斷條件：正整數持續時間：正整數，單位秒/分鐘
	伺服器各目錄磁碟空間使用率	防止磁碟空間耗盡導致的資料寫入失敗和系統當機，確定伺服器穩定運行判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
	Inode使用率	防止Inode耗盡導致無法建立新檔案或目錄，進而避免系統或應用程式出現故障判斷條件：0~1的小數持續時間：正整數，單位秒/分鐘
計算引擎指標	計算引擎正在執行的任務數量	監測計算引擎正在執行的任務數量判斷條件：任務數量，正整數
計算引擎指標	計算引擎等待執行的任務數量	監測計算引擎等待執行的任務數量判斷條件：任務數量，正整數
kafka指標	kafka GC時長	監測GC耗時判斷條件：GC時長，正整數，單位秒
kafka指標	kafka記憶體使用率	監測JVM當前堆內記憶體使用率判斷條件：0~1的小數
加速引擎指標	加速引擎FE存活節點數	用於判斷starrocks組件的FE存活節點數是否少了判斷條件：FE節點存活個數，正整數
	加速引擎BE存活節點數	用於判斷starrocks組件的BE存活節點數是否少了判斷條件：BE節點存活個數
	加速引擎FE連結數	監測連結數壓力判斷條件：各FE節點當前連結數
	加速引擎FE查詢QPS	監測查詢併發判斷條件：各FE節點每秒查詢數
	加速引擎FE請求RPS	監測請求併發判斷條件：各FE節點每秒請求數
	加速引擎FE99分位查詢耗時(ms)	效能警報判斷條件：各FE節點處理速度最快的99%的操作中，最長的延遲時間，單位為毫秒
	加速引擎FE記憶體使用率	記憶體警報判斷條件：各FE節點的記憶體使用佔比，小於1
	加速引擎BE可用磁碟空間	磁碟警報判斷條件：各BE節點儲存目錄的磁碟可用空間，單位bytes
	加速引擎BE-Compaction Score	監測BE的特徵指標，影響效能判斷條件：通常該值需要維持在100以內，而在大部分批量匯入或低頻匯入場景下，該值通常為10-20或者更低如果該值過高，不僅會影響匯入，還會影響叢集的查詢效能，此時就需要即時的降低匯入頻率
	加速引擎BE閒置CPU	CPU警報判斷條件：BE CPU的閒置佔比，小於1
	加速引擎BE記憶體用量	記憶體警報判斷條件：各個BE節點的記憶體使用情況，單位B

通知正文

設定警報通知中的正文內容

支援輸入正文和參數，支援換行，支援的參數包括：

專案名稱：{{ $labels.target_belong_app }}
節點名稱：{{ $labels.ClusterNodeName }}
節點地址：{{ $labels.instance }}

3）效果預覽

儲存的警報任務，展示在「自訂警報」的指定分組中。
展示該警報任務的適用專案、標籤、觸發條件、任務狀態等資訊，任務預設啟動。

3.2 管理任務

1）任務狀態

警報任務有四種狀態：

正常：任務已啟動，適用專案均未觸發限制項。
異常：任務已啟動，存在適用專案觸發了限制項，但未達到警報通知的持續時長。
警報：任務已啟動，存在適用專案觸發了限制項，且已達到警報通知的持續時長。
禁用：任務未啟動

2）任務啟停刪除

對於自訂警報，支援啟動、禁用和刪除操作。

3）修改分組名稱

對於自訂警報分組，支援修改分組名稱。

4）查看警報記錄

可點選「查看警報記錄」按鈕，查看曾觸發本條警報任務的明細資訊，瞭解觸發專案、觸發時間等。

5）編輯警報

可點選「編輯警報」按鈕，編輯本條警報任務的基礎資訊和警報通知正文。
編輯警報，不改變警報任務原本的啟停狀態。

已經是第一篇

已經是最後一篇

有幫助
沒幫助
只是瀏覽

中文（简体） English

繁體

警報任務