大部分企業對於業務系統的穩定性都有明確的目標要求。維運團隊透過統計系統可用性指標,可以幫助企業衡量業務系統提供的品質。
然而,系統可用性直接影響使用者體驗。如果系統在特定時間段內的可用性低於預期或頻繁出現不可用時間,不僅會影響終端使用者的滿意度,還可能導致業務中斷和客戶流失。
那麼,維運團隊如何有效地監視系統可用性,進而確定業務系統的穩定性和使用者滿意度?
維運平台提供了一項關鍵功能「可用性指標」,幫助維運團隊解決這一問題。
1)定義和計算系統可用性:支援對系統可用性進行定義和計算,提供不同時段的可用率,幫助團隊全面瞭解系統的運作狀態。
2)設定停機計劃:支援設定停機計劃,結合計劃內停機和意外當機的時間統計,可以更全面地評估系統的穩定性。
3)展示詳細停機記錄:支援展示詳細停機記錄,幫助維運團隊發現潛在問題和薄弱環節,進而即時採取措施進行調整和維護。
透過這些功能,維運團隊可以更好地監視系統或裝置的運作狀態,即時識別和解決問題,最終提高系統的可用性和使用者滿意度。
系統可用性是基於維運平台對維運專案的監視資料進行判斷的。
因此,為了準確獲取系統可用性指標,必須確定維運平台對維運專案的監視正常可用。
詳情請參見:监控仪表板使用前提
定義說明:
系統可用性指標 = ∑系統可用時間片 / (∑系統可用時間片 + ∑計劃外系統不可用時間片)
注:伺服器停機時段,不計入統計範疇。
系統可用時間片:維運平台的監視程式存活,且可以採集到維運專案的監視指標的時間段
計劃外系統不可用時間片:支援兩種定義
不可用時間段 - 計劃內停機且不可用時間段
例如:
停機計劃為3:00~4:00,實際1:00~2:00不可用、2:30~3:30不可用
那麼所有非計劃停機時間段為:1:00~2:00和2:30~3:00
不可用時間段:以下情況會被識別為不可用時間段
維運平台的監視程式存活,且無法採集到維運專案的監視指標持續超過3min的時間段(不可用開始時間~不可用結束時間)
當fr、fdl、bi-web、bi-worker、bi-master組件,連續FullGC後依舊負載較高(連續5次FullGC且負載分大於100)
當fr、fdl、bi-web、bi-worker、bi-master組件進程消失時
計劃內停機且不可用時間段:
計劃內停機時間段與不可用時間段的交集
識別為系統當機的不可用時間段,以下情況會被識別為對應節點當機
設定方法:
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」
2)點選「設定」按鈕,支援自訂「計劃外系統不可用時間片」的取數邏輯,預設選擇「所有非計劃停機」
3)點選「確定」生效。
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」。
2)如為多節點維運專案,右上角支援切換查看不同應用節點的可用性指標,預設展示整個專案的整體指標。
3)支援查看四種時段的可用性指標:昨日、前7日、前30日、近一年。
4)點選不同時段的可用性指標,可聯動下方的可用性柱形圖,查看不同時段的可用性詳情。
如需查看維運專案的停機記錄,請確定專案可用。
否則提示「專案狀態異常,請恢復專案後使用或查看其他專案」
停機記錄列表中,展示所選時段內的停機明細。
2)在「停機記錄」模組,右上角支援選擇查詢時段,預設查詢前一週的停機記錄。
3)如為多節點維運專案,支援切換查看不同應用節點的停機記錄,預設展示整個專案的停機記錄。
4)以明細表形式,展示所選時段內的所有停機情況
包括三種:
計劃停機:即在「停機計劃」中建立了對應計劃的停機,滑鼠懸浮可查看具體停機計劃內容
系統當機:即維運平台識別到了專案當機,常見的當機原因和推薦處理方案可參考下表
非計劃停機:即維運平台對該專案的監視採集異常,但未識別到當機,則為非計劃停機。滑鼠懸浮可「建立停機計劃」
是否觸發了「當機處理策略」中的當機自動重啟機制
如為否,點選可查看具體原因
常見的當機原因和推薦處理方案如下表所示:
記憶體上限溢位,可查看具體引發該問題的範本,包括:
被中止的範本
範本計算佔用記憶體過高
範本計算時間過長
sql執行時間過長
範本資料集資料行數大於建議限制行數
範本儲存格數大於建議限制儲存格數
1)對範本進行效能排查,優化範本內容
範本效能請參見:模板性能
2)開啟範本限制,配置合理的限制範圍
範本限制請參見:範本限制
3)如果當前系統堆內記憶體配置小於推薦配置時,額外建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置
系統巡檢請參見:系統巡檢
使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改記憶體配置
檢查伺服器磁碟空間,並使用資源清理功能清理不必要檔案
資源清理清參見:资源清理
使用系統巡檢功能對帆軟應用進行檢查,並參照推薦值修改vm.max_map_count記憶體映射檔案數量配置
建議更新升級帆軟應用至最新的小版本
維運平台部署的專案升級請參見:升級維運專案
BI更新升級請參見:FineBI 版本升級
FR更新升級請參見:FineReport版本说明
FDL更新升級請參見:FineDataLink 版本升级
透過 SSH 啟動應用時,若直接關閉 SSH 會導致應用一同終止
建議使用其他命令行遠端工具(如 SecureCRT),或配置應用伺服器為開機自啟動
詳情請參見:Windows下Tomcat開機自啟動
建議使用抽數快取、SQL優化、資料預處理等方式提升取數效能
效能優化請參見:效能優化指導手冊
建議調整日誌匯出級別以減少日誌量,或檢查磁碟是否存在空間不足的問題
日誌級別請參見:日誌簡介
1)如果當前系統堆內記憶體配置不合理,建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置
2)建議更換使用更高效能的CPU