1. 概述
1.1 版本
維運平台版本 | 功能變更 |
---|---|
V2.12.0 | - |
1.2 應用場景
大部分企業對於業務系統的穩定性都有明確的目標要求。維運團隊透過統計系統可用性指標,可以幫助企業衡量業務系統提供的品質。
然而,系統可用性直接影響使用者體驗。如果系統在特定時間段內的可用性低於預期或頻繁出現不可用時間,不僅會影響終端使用者的滿意度,還可能導致業務中斷和客戶流失。
那麼,維運團隊如何有效地監視系統可用性,進而確定業務系統的穩定性和使用者滿意度?
1.3 功能簡介
維運平台提供了一項關鍵功能「可用性指標」,幫助維運團隊解決這一問題。
1)定義和計算系統可用性:支援對系統可用性進行定義和計算,提供不同時段的可用率,幫助團隊全面瞭解系統的運作狀態。
2)設定停機計劃:支援設定停機計劃,結合計劃內停機和意外當機的時間統計,可以更全面地評估系統的穩定性。
3)展示詳細停機記錄:支援展示詳細停機記錄,幫助維運團隊發現潛在問題和薄弱環節,進而即時採取措施進行調整和維護。
透過這些功能,維運團隊可以更好地監視系統或裝置的運作狀態,即時識別和解決問題,最終提高系統的可用性和使用者滿意度。
2. 可用性指標
2.1 使用前提
系統可用性是基於維運平台對維運專案的監視資料進行判斷的。
因此,為了準確獲取系統可用性指標,必須確定維運平台對維運專案的監視正常可用。
詳情請參見:监控仪表板使用前提
2.2 定義可用性指標
定義說明:
系統可用性指標 = ∑系統可用時間片 / (∑系統可用時間片 + ∑計劃外系統不可用時間片)
注:伺服器停機時段,不計入統計範疇。
系統可用時間片:維運平台的監視程式存活,且可以採集到維運專案的監視指標的時間段
計劃外系統不可用時間片:支援兩種定義
所有非計劃停機 | 不可用時間段 - 計劃內停機且不可用時間段 例如: 停機計劃為3:00~4:00,實際1:00~2:00不可用、2:30~3:30不可用 那麼所有非計劃停機時間段為:1:00~2:00和2:30~3:00 |
不可用時間段:以下情況會被識別為不可用時間段
| |
計劃內停機且不可用時間段: 計劃內停機時間段與不可用時間段的交集 | |
僅系統當機 | 識別為系統當機的不可用時間段,以下情況會被識別為對應節點當機
|
設定方法:
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」
2)點選「設定」按鈕,支援自訂「計劃外系統不可用時間片」的取數邏輯,預設選擇「所有非計劃停機」
3)點選「確定」生效。
2.3 查看可用性指標
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」。
2)如為多節點維運專案,右上角支援切換查看不同應用節點的可用性指標,預設展示整個專案的整體指標。
3)支援查看四種時段的可用性指標:昨日、前7日、前30日、近一年。
4)點選不同時段的可用性指標,可聯動下方的可用性柱形圖,查看不同時段的可用性詳情。
3. 停機記錄
3.1 使用前提
如需查看維運專案的停機記錄,請確定專案可用。
否則提示「專案狀態異常,請恢復專案後使用或查看其他專案」
3.2 查看停機記錄
停機記錄列表中,展示所選時段內的停機明細。
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」
2)在「停機記錄」模組,右上角支援選擇查詢時段,預設查詢前一週的停機記錄。
3)如為多節點維運專案,支援切換查看不同應用節點的停機記錄,預設展示整個專案的停機記錄。
4)以明細表形式,展示所選時段內的所有停機情況
內容 | 說明 |
---|---|
停機時間 | 不可用時間段的開始時間 |
恢復時間 | 不可用時間段的結束時間 |
持續時長 | 不可用時間段的結束時間-開始時間 |
停機類型 | 包括三種: 計劃停機:即在「停機計劃」中建立了對應計劃的停機,滑鼠懸浮可查看具體停機計劃內容 系統當機:即維運平台識別到了專案當機,常見的當機原因和推薦處理方案可參考下表 非計劃停機:即維運平台對該專案的監視採集異常,但未識別到當機,則為非計劃停機。滑鼠懸浮可「建立停機計劃」 |
是否自動重啟 | 是否觸發了「當機處理策略」中的當機自動重啟機制 如為否,點選可查看具體原因 |
常見的當機原因和推薦處理方案如下表所示:
當機原因 | 推薦處理方案 |
---|---|
記憶體上限溢位,可查看具體引發該問題的範本,包括: 被中止的範本 範本計算佔用記憶體過高 範本計算時間過長 sql執行時間過長 範本資料集資料行數大於建議限制行數 範本儲存格數大於建議限制儲存格數 | 1)對範本進行效能排查,優化範本內容 範本效能請參見:模板性能 2)開啟範本限制,配置合理的限制範圍 範本限制請參見:範本限制 3)如果當前系統堆內記憶體配置小於推薦配置時,額外建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置 系統巡檢請參見:系統巡檢 |
所用JDK版本存在BUG | 建議更換為1.8.0_181及以上版本的JDK8 |
系統存在不合理的記憶體配置 | 使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改記憶體配置 系統巡檢請參見:系統巡檢 |
磁碟空間不足 | 檢查伺服器磁碟空間,並使用資源清理功能清理不必要檔案 資源清理清參見:资源清理 |
記憶體映射檔案數量設定過低 | 使用系統巡檢功能對帆軟應用進行檢查,並參照推薦值修改vm.max_map_count記憶體映射檔案數量配置 系統巡檢請參見:系統巡檢 |
當前所用版本存在當機BUG | 建議更新升級帆軟應用至最新的小版本 維運平台部署的專案升級請參見:升級維運專案 BI更新升級請參見:FineBI 版本升級 FR更新升級請參見:FineReport版本说明 FDL更新升級請參見:FineDataLink 版本升级 |
未知原因導致應用當機 | 建議上傳雲端健檢分析日誌或聯絡技術支援進行反饋 |
SSH跳出導致應用跳出 | 透過 SSH 啟動應用時,若直接關閉 SSH 會導致應用一同終止 建議使用其他命令行遠端工具(如 SecureCRT),或配置應用伺服器為開機自啟動 詳情請參見:Windows下Tomcat開機自啟動 |
資料源取數耗時過長導致執行緒阻擋 | 建議使用抽數快取、SQL優化、資料預處理等方式提升取數效能 效能優化請參見:效能優化指導手冊 |
日誌匯出導致執行緒阻擋 | 建議調整日誌匯出級別以減少日誌量,或檢查磁碟是否存在空間不足的問題 日誌級別請參見:日誌簡介 |
系統記憶體釋放時間過長 | 1)如果當前系統堆內記憶體配置不合理,建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置 系統巡檢請參見:系統巡檢 2)建議更換使用更高效能的CPU |