問題描述:
小明是公司的維運人員,負責管理着多個應用平台。隨着應用長時間運作、人員增加,應用磁碟空間不足,長期高負載。
儘管他定期會對應用進行檢查,仍然被業務人員反覆質問:怎麼又出現當機事故了?怎麼又沒法存取平台了?
小明很困擾,怎麼才能提前感知到這些平台的問題,並且解決這些隱患呢?
解決方案:
小明將這些應用接入到維運平台,透過維運平台的「警報」功能,即可設定警報規則和警報方式。
維運平台檢查到觸發警報規則(例如某節點負載過高)時,直接傳送郵件提醒小明。
小明終於可以在業務使用者感知之前,解決這些應用平台的隱患。
對於所有維運專案:提供內建預設警報規則
對於單個維運專案:管理者可自訂異常觸發條件和達成警報的持續時間
警報記錄是指在警報管理中,針對維運專案出現異常情況時所觸發的警報任務的記錄
透過查看警報記錄,管理者可以獲取關鍵指標和詳細資訊,如警報發生時間、警報類型、觸發專案等
當觸發警報時,支援透過多種方式通知管理者:
信箱、webhook、企業微信、企業微信機器人、釘釘機器人、飛書機器人
1)警報指標依賴監視獲取,因此請務必達成監視使用前提,詳情請參見:監視儀表板使用前提
2)警報依賴維運平台組件alertmanager,因此請確定「維運管理>維運組件」中alertmanager組件正常運作