帆軟工程部署在伺服器上後,可能會因為各種原因導致當機。
當機後若直接重啟而沒有抓取 DUMP 檔案,很難定位到真實原因。
這不僅無法快速解決問題,還無法採取預防措施,導致時間和精力的巨大損失,對伺服器維運非常不友好。
如何有效監測和處理帆軟應用的當機問題,以減少時間和精力的損失,並提高伺服器維運的友好性?
維運平台支援呼叫維運專案中的當機處理工具,對帆軟應用進行當機監測與自動處理。
1)當監測到維運專案當機後,自動生成 DUMP 檔案,同時可重新啟動工程、恢復進程。
2)透過分析生成的 DUMP 檔案,快速定位當機原因,即時處理當機問題,並採取有效的預防措施,為使用者增加一道保險。
本文將詳細講解如何開啟當機自動處理,並設定相關當機處理策略。
當機處理工具,是維運專案中一個獨立運作的工具。維運平台對專案的當機監測和自動重啟等,均依賴該工具。
當機處理工具一般都在正常運作,但請注意若專案應用主進程關閉,當機處理工具視情況關閉
在工作時段(6:00-23:00),當應用主進程關閉5分鐘後,當機處理工具也跟隨關閉
在非工作時段(0:00-6:00,23:00-24:00),應用主進程關閉,當機處理工具不跟隨關閉
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>當機處理策略」。
2)開啟「當機自動重啟」,這是開啟其他當機處理策略的前提。
3)支援配置各類當機處理策略,點選「儲存」生效。
4)當觸發當機處理策略後,會自動觸發對應組件/工程重啟。
面向專案:所有維運平台部署的專案
面向組件:fr、fdl、bi-web
觸發機制:連續FullGC後依舊負載較高(連續5次FullGC且負載分大於100),會自動觸發對應組件重啟
面向專案:V2.29.0及之後版本維運平台部署/升級的FineBI6.1.8/7.0.6及以上版本專案
面向組件:bi-engine-worker
支援配置的策略規則:
間隔時間interval:每次容器健康檢查的間隔時間,預設30秒
逾時時間timeout:容器健康檢查的逾時傳回時間,預設6秒
連續失敗臨界值failureThreshold:容器連續健康檢查失敗的次數,達到即觸發bi-engine-worker重啟,預設10次
觸發機制:(以預設策略規則進行範例講解)
每隔30秒對bi-engine-worker容器進行一次健康檢查,檢查容器狀態是否為health
如果達到逾時時間6秒仍未檢查出容器狀態,或容器狀態非health,則認為容器健康檢查失敗
當容器健康檢查連續失敗次數達到臨界值10次,則自動觸發bi-engine-worker重啟
面向組件:bi-engine-master
連續失敗臨界值failureThreshold:容器連續健康檢查失敗的次數,達到即觸發bi-engine-master重啟,預設10次
每隔30秒對bi-engine-master容器進行一次健康檢查,檢查容器狀態是否為health
當容器健康檢查連續失敗次數達到臨界值10次,則自動觸發bi-engine-master重啟
面向組件:bi-web
間隔時間interval:每次容器健康檢查的間隔時間,預設60秒
逾時時間timeout:容器健康檢查的逾時傳回時間,預設10秒
連續失敗臨界值failureThreshold:容器連續健康檢查失敗的次數,達到即觸發bi-web重啟,預設10次
每隔60秒對bi-web容器進行一次健康檢查,檢查容器狀態是否為health
如果達到逾時時間10秒仍未檢查出容器狀態,或容器狀態非health,則認為容器健康檢查失敗
當容器健康檢查連續失敗次數達到臨界值10次,則自動觸發bi-web重啟
面向專案:V2.29.0及之後版本維運平台部署/升級的FineBI7.0.6及以上版本專案,且獨立部署了Fine Canvas服務
面向組件:fine-canvas
間隔時間interval:每次容器健康檢查的間隔時間,預設10秒
逾時時間timeout:容器健康檢查的逾時傳回時間,預設3秒
連續失敗臨界值failureThreshold:容器連續健康檢查失敗的次數,達到即觸發fine-canvas重啟,預設3次
每隔10秒對fine-canvas容器進行一次健康檢查,檢查容器狀態是否為health
如果達到逾時時間3秒仍未檢查出容器狀態,或容器狀態非health,則認為容器健康檢查失敗
當容器健康檢查連續失敗次數達到臨界值3次,則自動觸發fine-canvas重啟
Linux伺服器:部署在Linux伺服器中的專案,支援配置當機處理策略
Windows伺服器,工程啟動方式為Windows服務形式:不支援配置當機處理策略
Windows伺服器,工程啟動方式非Windows服務形式:當機處理策略不一定生效
對於非維運平台部署的專案,需要設定當機處理工具佔用的埠,確定可用
1)管理者登入維運平台,選擇維運專案,點選「可用性統計>當機處理策略」
2)在「埠設定」中輸入佔用埠:預設埠為 12100,埠號範圍必須在1024 到 65535 之間
3)點選「測試」,提示「埠可用,儲存後當機自動處理工具將在新埠重啟」
4)點選「儲存」,即可使當機自動處理工具佔用新埠運作。
2)支援開啟「當機自動重啟」,點選「儲存」生效。
3)當fr、fdl、bi-web組件,連續FullGC後依舊負載較高(連續5次FullGC且負載分大於100)時,如開啟了「當機自動重啟」策略,會自動觸發對應組件/工程重啟。
2)支援開啟「進程自動恢復」。開啟後可設定功能生效時間段。點選「儲存」生效。
3)在功能生效時間段內,當fr、fdl、bi-web組件進程消失時,會自動恢復。
滑鼠選中內容,快速回饋問題
滑鼠選中存在疑惑的內容,即可快速回饋問題,我們將會跟進處理。
不再提示
10s後關閉
反馈已提交
网络繁忙