可用性指標

1. 概述

1.1 版本

維運平台版本功能變更
V2.12.0
-

1.2 應用場景

大部分企業對於業務系統的穩定性都有明確的目標要求。維運團隊透過統計系統可用性指標,可以幫助企業衡量業務系統提供的品質。

然而,系統可用性直接影響使用者體驗。如果系統在特定時間段內的可用性低於預期或頻繁出現不可用時間,不僅會影響終端使用者的滿意度,還可能導致業務中斷和客戶流失。

那麼,維運團隊如何有效地監視系統可用性,進而確定業務系統的穩定性和使用者滿意度?

1.3 功能簡介

維運平台提供了一項關鍵功能「可用性指標」,幫助維運團隊解決這一問題。

1)定義和計算系統可用性:支援對系統可用性進行定義和計算,提供不同時段的可用率,幫助團隊全面瞭解系統的運作狀態。

2)設定停機計劃:支援設定停機計劃,結合計劃內停機和意外當機的時間統計,可以更全面地評估系統的穩定性。

3)展示詳細停機記錄:支援展示詳細停機記錄,幫助維運團隊發現潛在問題和薄弱環節,進而即時採取措施進行調整和維護。

透過這些功能,維運團隊可以更好地監視系統或裝置的運作狀態,即時識別和解決問題,最終提高系統的可用性和使用者滿意度。

2. 可用性指標

2.1 使用前提

系統可用性是基於維運平台對維運專案的監視資料進行判斷的。

因此,為了準確獲取系統可用性指標,必須確定維運平台對維運專案的監視正常可用。

詳情請參見:监控仪表板使用前提

2.2 定義可用性指標

定義說明:

系統可用性指標 = ∑系統可用時間片 / (∑系統可用時間片 + ∑計劃外系統不可用時間片)

注:伺服器停機時段,不計入統計範疇。

  • 系統可用時間片:維運平台的監視程式存活,且可以採集到維運專案的監視指標的時間段

  • 計劃外系統不可用時間片:支援兩種定義



所有非計劃停機

不可用時間段 - 計劃內停機且不可用時間段

例如:

停機計劃為3:00~4:00,實際1:00~2:00不可用、2:30~3:30不可用

那麼所有非計劃停機時間段為:1:00~2:00和2:30~3:00

不可用時間段:以下情況會被識別為不可用時間段

  • 維運平台的監視程式存活,且無法採集到維運專案的監視指標持續超過3min的時間段(不可用開始時間~不可用結束時間)

  • fr、fdl、bi-web、bi-worker、bi-master組件,連續FullGC後依舊負載較高(連續5次FullGC且負載分大於100)

  • fr、fdl、bi-web、bi-worker、bi-master組件進程消失時

計劃內停機且不可用時間段:

計劃內停機時間段與不可用時間段的交集

僅系統當機

識別為系統當機的不可用時間段,以下情況會被識別為對應節點當機

  • fr、fdl、bi-web、bi-worker、bi-master組件,連續FullGC後依舊負載較高(連續5次FullGC且負載分大於100)

  • fr、fdl、bi-web、bi-worker、bi-master組件進程消失時

設定方法:

1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」

2)點選「設定」按鈕,支援自訂「計劃外系統不可用時間片」的取數邏輯,預設選擇「所有非計劃停機」

3)點選「確定」生效。

2.3 查看可用性指標

1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」。

2)如為多節點維運專案,右上角支援切換查看不同應用節點的可用性指標,預設展示整個專案的整體指標。

3)支援查看四種時段的可用性指標:昨日、前7日、前30日、近一年。

4)點選不同時段的可用性指標,可聯動下方的可用性柱形圖,查看不同時段的可用性詳情。

3. 停機記錄

3.1 使用前提

如需查看維運專案的停機記錄,請確定專案可用。

否則提示「專案狀態異常,請恢復專案後使用或查看其他專案

3.2 查看停機記錄

停機記錄列表中,展示所選時段內的停機明細。

1)管理者登入維運平台,選擇維運專案,點選「可用性統計>可用性指標」

2)在「停機記錄」模組,右上角支援選擇查詢時段,預設查詢前一週的停機記錄。

3)如為多節點維運專案,支援切換查看不同應用節點的停機記錄,預設展示整個專案的停機記錄。

4)以明細表形式,展示所選時段內的所有停機情況

內容
說明
停機時間不可用時間段的開始時間
恢復時間不可用時間段的結束時間
持續時長不可用時間段的結束時間-開始時間
停機類型

包括三種

計劃停機:即在「停機計劃」中建立了對應計劃的停機,滑鼠懸浮可查看具體停機計劃內容

系統當機:即維運平台識別到了專案當機,常見的當機原因和推薦處理方案可參考下表

非計劃停機:即維運平台對該專案的監視採集異常,但未識別到當機,則為非計劃停機。滑鼠懸浮可「建立停機計劃

是否自動重啟

是否觸發了「當機處理策略」中的當機自動重啟機

如為否,點選可查看具體原因

常見的當機原因和推薦處理方案如下表所示:

當機原因
推薦處理方案

記憶體上限溢位,可查看具體引發該問題的範本,包括:

被中止的範本

範本計算佔用記憶體過高

範本計算時間過長

sql執行時間過長

範本資料集資料行數大於建議限制行數

範本儲存格數大於建議限制儲存格數

1)對範本進行效能排查,優化範本內容

範本效能請參見:模板性能

2)開啟範本限制,配置合理的限制範圍

範本限制請參見:範本限制

3)如果當前系統堆內記憶體配置小於推薦配置時,額外建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置

系統巡檢請參見:系統巡檢

所用JDK版本存在BUG建議更換為1.8.0_181及以上版本的JDK8
系統存在不合理的記憶體配置

使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改記憶體配置

系統巡檢請參見:系統巡檢

磁碟空間不足

檢查伺服器磁碟空間,並使用資源清理功能清理不必要檔案

資源清理清參見:资源清理

記憶體映射檔案數量設定過低

使用系統巡檢功能對帆軟應用進行檢查,並參照推薦值修改vm.max_map_count記憶體映射檔案數量配置

系統巡檢請參見:系統巡檢

當前所用版本存在當機BUG

建議更新升級帆軟應用至最新的小版本

維運平台部署的專案升級請參見:升級維運專案

BI更新升級請參見:FineBI 版本升級

FR更新升級請參見:FineReport版本说明

FDL更新升級請參見:FineDataLink 版本升级

未知原因導致應用當機建議上傳雲端健檢分析日誌或聯絡技術支援進行反饋
SSH跳出導致應用跳出

透過 SSH 啟動應用時,若直接關閉 SSH 會導致應用一同終止

建議使用其他命令行遠端工具(如 SecureCRT),或配置應用伺服器為開機自啟動

詳情請參見:Windows下Tomcat開機自啟動

資料源取數耗時過長導致執行緒阻擋

建議使用抽數快取、SQL優化、資料預處理等方式提升取數效能

效能優化請參見:效能優化指導手冊

日誌匯出導致執行緒阻擋

建議調整日誌匯出級別以減少日誌量,或檢查磁碟是否存在空間不足的問題

日誌級別請參見:日誌簡介

系統記憶體釋放時間過長

1)如果當前系統堆內記憶體配置不合理,建議使用系統巡檢功能對帆軟應用進行診斷,並參照推薦值修改堆內記憶體配置

系統巡檢請參見:系統巡檢

2)建議更換使用更高效能的CPU


附件列表


主題: 專案管理
已經是第一篇
已經是最後一篇
  • 有幫助
  • 沒幫助
  • 只是瀏覽