發生了記憶體當機類問題,由於生產環境,必須要第一時間恢復環境,沒有來得及登入到後台輸入命令收集當機資訊,導致問題無法定位。
夜間發生了當機,由於沒有人24h監視,或者由於沒有辦法觸碰到內網環境,導致第二天才能夠恢復,導致發生了生產事故。
維運平台自動識別當機情況,並且自動採集當機資訊,採集完資訊後,自動重啟工程,保證工程持久運作。
當機前的預防:為了防止當機時無人值守,需要開啟當機處理策略,確定維運平台可以自動重啟工程。
當機時的採集:當機時,自動匯出記憶體堆疊日誌資訊
採集後的恢復:當機資訊採集完成後,維運平台幫助管理者自動重啟工程、恢復進程。
恢復後的分析:當機時,維運平台會自動匯出記憶體堆疊,可以給出針對當機的原因分析和解決方案,可以自動對當機堆疊進行分析。
在「業務工具>當機自動處理>當機處理策略」,開啟當機自動處理相關功能,確定維運平台發生當機後維運平台可以進行處理措施。
維運平台自動採集當前當機狀態的FRBI資訊。
維運平台在負載極高判定為當機的情況下自動觸發資訊採集。
自動採集堆疊/histo/heapdump (可在上一步根據自身需求自訂採集哪些內容)
採集完當機狀態資訊後自動重啟FRBI應用,恢復系統使用。
採集當機資訊後自動重啟
夜間檢查到進程消失自動啟動
1)維運平台當機自動處理頁面,查詢當機資訊和分析結果
進入維運平台當機自動處理頁面可以查看到當機事故記錄/資訊採集時間/重啟時間
查看當機原因和推薦處理方案
2)維運平台「日誌管理>效能堆疊」頁面,查看對應當機日誌的分析報表。
3)查看當機資訊
FRBI應用對應目錄下,可以查看到維運平台自動採集的資訊。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙