1. 概述
1.1 版本
維運平台版本 | 功能變更 |
---|---|
V1.5.5 | - |
V1.7.0 | 支援自訂警報 |
V1.9.0 | 「負載過高警報——節點無回應」更名為「應用卡頓警報——節點無回應」,降低使用者理解成本 |
V1.11.0 | 新增預設警報「維運平台掛載磁碟預警」,改寫通用維運場景 |
V1.14.0 | 「應用卡頓警報——節點無回應」觸發邏輯優化:異常狀態持續觸發時長從30s優化為60s |
V2.0.0 | 全局專案警報與單個專案警報拆分管理 |
V2.6.0 | 針對BI加速引擎、kafka等組件,新增自訂警報指標類型 |
V2.10.0 | 1)新增預設警報 應用告警:CodeCache使用率警報、MetaSpace使用率警報 伺服器警報:伺服器磁碟空間預警、Inode使用率預警 2)自訂警報新增指標 應用指標:CodeCache使用率、MetaSpace使用率 伺服器指標:伺服器各目錄磁碟空間使用率、Inode使用率 |
V2.12.0 | 新增預設警報「註冊服務狀態異常警報」,防止註冊組件未啟動導致業務使用異常 |
1.2 應用場景
當維運專案遇到高負載、當機風險、磁碟空間不足等問題時,需要即時通知管理者。
FineOps提供警報管理功能,提供內建預設警報任務。使用者也可自訂異常觸發條件和達成警報的持續時間。
2. 預設警報
為了方便使用者對專案進行管理監視,維運平台內建了一些警報規則,作用於維運平台中的所有專案。
管理者登入維運平台,點選「警報中心>警報任務>預設警報」,可查詢所有內建預設警報規則。如下圖所示:
2.1 任務一覽
維運平台內建規則如下表所示,不支援更改。
分類 | 警報名稱 | 判斷邏輯 |
---|---|---|
應用警報 | 應用開啟檔案數不足 | 異常項:此應用節點開啟檔案數已超過85%,存在導致應用節點故障的風險 觸發時長:異常狀態持續超過2min 處理建議:請即時調整對應應用的最大檔案開啟數nofile ,修改方法參考 Linux最大開啟檔案數 |
應用卡頓警報——節點無回應 | 異常項:應用節點回應異常 觸發時長:異常狀態持續超過60s 處理建議:請存取應用節點檢查其是否存在異常或即時重啟異常節點,避免影響系統使用 | |
系統當機警報——無回應 | 異常項:應用節點發生當機 觸發時長:異常狀態持續超過2min 處理建議:請儘快重啟並排查當機問題,避免影響系統使用 | |
http執行緒數阻擋 | 異常項:http執行緒數已經使用超過85%,可能導致應用請求阻擋 觸發時長:異常狀態持續超過30s 處理建議:請排查是否由於系統使用併發量增加導致,如因併發過大,請儘快提升http執行緒最大值,如非併發增大可能出現了業務異常,建議使用堆疊分析定位 | |
https執行緒數阻擋 | 異常項:https執行緒數已經使用超過85%,可能導致應用請求阻擋 觸發時長:異常狀態持續超過30s 處理建議:請排查是否由於系統使用併發量增加導致,如因併發過大,請儘快提升https執行緒最大值,如非併發增大可能出現了業務異常,建議使用堆疊分析定位 | |
工程磁碟空間預警 | 異常項:工程磁碟剩餘空間不足15% 觸發時長:異常狀態持續超過5min 處理建議:當前伺服器工程磁碟剩餘空間不足15%,請即時清理磁碟或增加磁碟空間 | |
FullGC異常 | 異常項:應用節點FullGC發生異常 觸發時長:5min內,特標度籤target_belong_app和instance下的JVM全量垃圾回收,次數總和大於3次且時間總和超過 50s 處理建議:當前應用節點發生連續FullGC,且FullGC持續時間過長,可能導致存取出現明顯卡頓並有當機風險,請即時排查系統使用問題並判斷是否需要重啟恢復使用 | |
CodeCache使用率警報 | 異常項:應用節點CodeCache使用率已超過80%,存在導致應用節點效能問題的風險 觸發時長:異常狀態持續超過2min 處理建議:請即時調整對應應用的CodeCache配置,保證其使用率維持在50%左右或更低 | |
MetaSpace使用率警報 | 異常項:應用節點MetaSpace使用率已超過80%,存在導致應用節點故障的風險 觸發時長:異常狀態持續超過2min 處理建議:請即時調大對應應用的MetaSpace配置,並聯系帆軟技術人員協助排查 | |
效能警報 | 應用存取異常 | 異常項:專案當前效能指數過低,可能出現存取異常(效能指數APDEX小於90%且CPM每分鐘交易數大於 100) 觸發時長:異常狀態持續超過3min 處理建議:請儘快關注系統健康觀測頁面中的效能指數趨勢,如持續降低需確認應用是否出現存取異常,並儘快匯出堆疊、dump等日誌排查故障或重啟恢復使用 |
伺服器警報 | 伺服器cpu預警 | 異常項:伺服器cpu使用率持續過高(超過90%) 觸發時長:異常狀態持續超過6min 處理建議:請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器,避免影響系統使用 |
伺服器記憶體預警 | 異常項:伺服器記憶體佔用持續過高(超過90%) 觸發時長:異常狀態持續超過6min 處理建議:請檢查是否存在異常進程並修復、減少伺服器內的業務用量或儘快擴容伺服器,避免影響系統使用 | |
伺服器開啟檔案數不足 | 異常項:伺服器開啟檔案數已超過85%,存在導致系統故障的風險 觸發時長:異常狀態持續超過2min 處理建議:請即時調整對應節點的最大檔案開啟數file_max,修改方法參考 Linux最大開啟檔案數 | |
伺服器磁碟空間預警 | 異常項:伺服器磁碟目錄剩餘空間不足15% 觸發時長:異常狀態持續超過6min 處理建議:此伺服器磁碟目錄剩餘空間不足15%,請即時清理磁碟或增加磁碟空間,避免影響系統使用 | |
Inode使用率預警 | 異常項:伺服器inode使用率超過80% 觸發時長:異常狀態持續超過2min 處理建議:此伺服器inode使用率超過80%,如果inode資源耗盡,即使還存在可用空間也無法建立新檔案,請儘快聯絡技術人員協助排查,避免影響系統使用 | |
組件警報 | 外置庫連結性警報 | 異常項:應用節點和外接資料庫連通異常 觸發時長:異常狀態持續超過30s 處理建議:請檢查外置庫狀態是否異常,如無異常請排查異常節點與外接資料庫的網路問題 |
外置庫狀態異常警報 | 異常項:外置庫狀態異常 觸發時長:異常狀態持續超過30s 處理建議:請儘快檢查外置庫狀態並恢復外置庫存取,避免影響帆軟應用提供服務 | |
狀態伺服器連結性警報 | 異常項:應用節點和狀態伺服器Redis連通異常 觸發時長:異常狀態持續超過30s 處理建議:請檢查狀態伺服器Redis是否異常,如無異常請排查異常節點與狀態伺服器的網路問題 | |
狀態伺服器記憶體佔用過高 | 異常項:狀態伺服器Redis記憶體使用率超過85% 觸發時長:異常狀態持續超過5min 處理建議:請排查狀態伺服器Redis使用是否正常,如使用正常建議後續增加Redis記憶體配置避免Redis壓力過大影響帆軟應用提供服務 | |
狀態伺服器狀態異常警報 | 異常項:狀態伺服器Redis異常 觸發時長:異常狀態持續超過30s 處理建議:請儘快檢查狀態伺服器並恢復狀態伺服器使用,避免影響帆軟應用提供服務 | |
檔案伺服器連結性警報 | 異常項:應用節點和檔案伺服器連通異常 觸發時長:異常狀態持續超過30s 處理建議:請檢查檔案伺服器是否異常,如無異常請排查異常節點與檔案伺服器的網路問題 | |
Nginx狀態異常警報 | 異常項:Nginx狀態異常 觸發時長:異常狀態持續超過30s 處理建議:請儘快檢查Nginx並恢復Nginx使用,避免影響帆軟應用提供服務 | |
維運平台掛載磁碟預警 | 異常項:維運平台掛載磁碟剩餘空間不足15% 觸發時長:異常狀態持續超過5min 處理建議:維運平台掛載磁碟剩餘空間不足15%,磁碟空間不足可能導致維運平台出現故障,請即時清理磁碟或增加磁碟空間 | |
註冊服務狀態異常警報 | 異常項:註冊服務狀態異常 觸發時長:專案中存在.*license_server組件,且組件異常狀態持續超過60s 處理建議:請檢查註冊服務狀態是否異常,避免影響帆軟應用提供服務 |
2.2 管理任務
1)任務狀態
警報任務有四種狀態:
正常:任務已啟動,所有專案均未觸發限制項。
異常:任務已啟動,存在專案觸發了限制項,但未達到警報通知的持續時長。
警報:任務已啟動,存在專案觸發了限制項,且已達到警報通知的持續時長。
禁用:任務未啟動
2)任務啟停
對於預設警報,支援啟動、禁用操作。
不支援刪除、修改預設警報任務,不支援修改任務分組。
3)查看警報任務詳情
按照分組存放並展示每個任務的簡要資訊:警報名稱、當前狀態、適用專案、標籤、觸發條件、是否啟動
可點選「查看警報詳情」按鈕,查看本條警報任務的詳細資訊和警報通知範本
4)查看警報記錄
可點選「查看警報記錄」按鈕,查看曾觸發本條警報任務的明細資訊,瞭解觸發專案、觸發時間等。
3. 自訂警報
3.1 新增任務-入口
維運平台支援兩種方式新增自訂警報任務。
1)對單個/多個/所有維運專案新增同一警報任務
管理者登入維運平台,點選「警報中心>警報任務>自訂警報」,即可自訂警報任務。
任務可對單個/多個/所有維運專案生效。
2)對指定專案新增警報任務
管理者登入維運平台,選擇指定維運專案,點選「警報>警報任務>自訂警報」,即可自訂警報任務。
任務僅可對該維運專案生效。
3.2 新增任務-操作
1)建立警報
管理者登入FineOps維運平台,點選「警報中心>警報任務>自訂警報」,點選「建立警報」按鈕,進入配置介面。
2)警報任務設定
在「警報任務設定」頁面,支援設定任務的基礎資訊和警報通知的正文。
點選「儲存」,完成任務設定。
設定項 | 說明 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
警報名稱 | 該警報任務的名稱 不支援重名 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
通用專案 | 可下拉選擇該警報任務生效的專案,支援多選 為空代表不限制,全選專案 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
分組 | 可下拉選擇該警報任務所屬的分組 支援新增分組,分組名稱不支援重複,不支援多選 如新增了分組,但不存在任何一個警報任務使用到該分組,儲存任務時該分組不會儲存 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
標籤 | 可下拉選擇該警報任務的標籤 支援新增標籤,標籤名稱不支援重複,不支援多選 如新增了標籤,但不存在任何一個警報任務使用到該標籤,儲存任務時該標籤不會儲存 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
觸發條件 | 支援對以下指標設定警報判斷條件和觸發時長
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
通知正文 | 設定警報通知中的正文內容 支援輸入正文和參數,支援換行,支援的參數包括:
|
3)效果預覽
儲存的警報任務,展示在「自訂警報」的指定分組中。
展示該警報任務的適用專案、標籤、觸發條件、任務狀態等資訊,任務預設啟動。
3.2 管理任務
1)任務狀態
警報任務有四種狀態:
正常:任務已啟動,適用專案均未觸發限制項。
異常:任務已啟動,存在適用專案觸發了限制項,但未達到警報通知的持續時長。
警報:任務已啟動,存在適用專案觸發了限制項,且已達到警報通知的持續時長。
禁用:任務未啟動
2)任務啟停刪除
對於自訂警報,支援啟動、禁用和刪除操作。
3)修改分組名稱
對於自訂警報分組,支援修改分組名稱。
4)查看警報記錄
可點選「查看警報記錄」按鈕,查看曾觸發本條警報任務的明細資訊,瞭解觸發專案、觸發時間等。
5)編輯警報
可點選「編輯警報」按鈕,編輯本條警報任務的基礎資訊和警報通知正文。
編輯警報,不改變警報任務原本的啟停狀態。