一種基於軟硬體協同的計算機系統故障處理方法與流程
2023-07-27 15:13:46
本發明涉及計算機系統故障處理技術領域,具體為一種基於軟硬體協同的計算機系統故障處理方法。
背景技術:
計算機系統由計算機硬體和軟體兩部分組成。硬體包括中央處理機、存儲器和外部設備等;軟體是計算機的運行程序和相應的文檔。計算機系統具有接收和存儲信息、按程序快速計算和判斷並輸出處理結果等功能;計算機系統的特點是能進行精確、快速的計算和判斷,而且通用性好,使用容易,還能聯成網絡。①計算:一切複雜的計算,幾乎都可用計算機通過算術運算和邏輯運算來實現。②判斷:計算機有判別不同情況、選擇作不同處理的能力,故可用於管理、控制、對抗、決策、推理等領域。③存儲:計算機能存儲巨量信息。④精確:只要字長足夠,計算精度理論上不受限制。⑤快速:計算機一次操作所需時間已小到以納秒計。⑥通用:計算機是可編程的,不同程序可實現不同的應用。⑦易用:豐富的高性能軟體及智能化的人-機接口,大大方便了使用。⑧聯網:多個計算機系統能超越地理界限,藉助通信網絡,共享遠程信息與軟體資源。
計算機系統的可用性是評價一個計算機系統穩定可靠的指標,其通常通過平均無故障時間來進行度量。平均無故障時間越長,則該計算機系統的可用性就越高。影響計算機系統可用性的因素既有軟體方面也有硬體方面。軟體故障通常指計算機系統的程序或軟體因為某種因素破壞導致無法正常工作或影響正常使用,軟體故障的影響域一般為軟體自身以及依賴於此軟體的其它軟體或程序。硬體故障通常指計算機系統的物理硬體因為某種因素破壞導致無法正常工作或影響正常使用,硬體故障對計算機系統影響較大,嚴重時會導致系統宕機。
現有技術的計算機系統對於硬體故障的檢測依賴於硬體驅動程序,而對於軟體故障,通常採用定時輪詢機制完成服務狀態檢測。完成故障檢測後,立即按照驅動或程序默認策略進行故障處理,並記錄各自的處理日誌,現有的計算機系統故障處理缺乏軟硬體故障統一管理,處理效率低。
技術實現要素:
本發明的目的在於提供一種基於軟硬體協同的計算機系統故障處理方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基於軟硬體協同的計算機系統故障處理方法,包括以下步驟:
A、選取計算機系統中至少兩個節點作為計算機系統的管理節點,其中一個作為主節點,其餘作為備用節點;
B、主節點實時檢測系統服務故障和應用服務故障並生成故障報告口志,並通過故障報告接口輸出故障報告;
C、備用節點實時檢測系統硬體故障並生成故障報告日誌,並通過故障報告接口輸出故障報告;
D、對故障進行識別和恢復。
優選的,所述步驟D中故障識別和恢復方法包括以下步驟:採用控制流、數據流的同步狀態反饋方式,以總線訪問的等待信號、錯誤信號以及中斷信號三種觸發方式中斷處理器當前運行流程,並根據事件驅動源、反饋信息進行故障識別和恢復。
優選的,所述步驟B中系統服務故障和應用服務故障檢測方法包括以下步驟:
A、創建至少一組故障計數器,並設置故障計數器的計數增加值、減少值、門限值;
B、同一故障在一個檢測周期內每出現一次,故障計數器即進行一次計數,當故障計數器的累積值達到門限值時,確認故障並記錄。。
優選的,所述步驟C中系統硬體故障檢測方法包括以下步驟:通過預先分布在故障注入接口、故障中斷處理例程和硬體驅動中的多個硬體狀態監測點檢測對應的硬體狀態信息,如果任意硬體狀態監測點檢測的硬體狀態發生異常,則所述硬體狀態監測點根據預設的規則收集對應硬體的現場數據作為硬體故障數據;將硬體故障數據進行封裝生成故障報告並存入預設的故障消息隊列;對故障消息隊列進行調度分發並輸出。
與現有技術相比,本發明的有益效果是:本發明的計算機系統故障處理方法簡單,能夠對計算機系統故障進行快速檢測,處理效率高,故障處理規則擴展方便、能夠保證計算機系統在軟體故障或硬體故障下高可用性。
附圖說明
圖1為本發明的流程圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
請參閱圖1,本發明提供一種技術方案:一種基於軟硬體協同的計算機系統故障處理方法,包括以下步驟:
A、選取計算機系統中至少兩個節點作為計算機系統的管理節點,其中一個作為主節點,其餘作為備用節點;
B、主節點實時檢測系統服務故障和應用服務故障並生成故障報告日誌,並通過故障報告接口輸出故障報告;
C、備用節點實時檢測系統硬體故障並生成故障報告日誌,並通過故障報告接口輸出故障報告;
D、對故障進行識別和恢復。
本實施例中,步驟D中故障識別和恢復方法包括以下步驟:採用控制流、數據流的同步狀態反饋方式,以總線訪問的等待信號、錯誤信號以及中斷信號三種觸發方式中斷處理器當前運行流程,並根據事件驅動源、反饋信息進行故障識別和恢復。當數據流的控制鏈路某環節出現異常時,相關的兩組控制邏輯無法同步,造成該兩組控制邏輯失效,並最終影響整個數據流鏈路的同步,直至前端控制邏輯與處理器的同步邏輯失效,引發處理器等待超時異常或使能設備錯誤中斷,對沒有總線等待狀態接口的處理器通過中斷或錯誤標誌通知處理器,並通過管理軟體的異常處理實施故障的恢復。
本實施例中,步驟B中系統服務故障和應用服務故障檢測方法包括以下步驟:
A、創建至少一組故障計數器,並設置故障計數器的計數增加值、減少值、門限值;
B、同一故障在一個檢測周期內每出現一次,故障計數器即進行一次計數,當故障計數器的累積值達到門限值時,確認故障並記錄。
本實施例中,步驟C中系統硬體故障檢測方法包括以下步驟:通過預先分布在故障注入接口、故障中斷處理例程和硬體驅動中的多個硬體狀態監測點檢測對應的硬體狀態信息,如果任意硬體狀態監測點檢測的硬體狀態發生異常,則所述硬體狀態監測點根據預設的規則收集對應硬體的現場數據作為硬體故障數據;將硬體故障數據進行封裝生成故障報告並存入預設的故障消息隊列;對故障消息隊列進行調度分發並輸出;採用預先分布在故障注入接口、故障中斷處理例程和硬體驅動中的多個硬體狀態監測點檢測對應的硬體狀態信息,能夠提升對硬體故障的預警、快速發現能力,提高硬體故障發現的及時性和效率。
本發明的計算機系統故障處理方法簡單,能夠對計算機系統故障進行快速檢測,處理效率高,故障處理規則擴展方便、能夠保證計算機系統在軟體故障或硬體故障下高可用性。
儘管已經示出和描述了本發明的實施例,對於本領域的普通技術人員而言,可以理解在不脫離本發明的原理和精神的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發明的範圍由所附權利要求及其等同物限定。