主備設備倒換方法
2023-05-30 10:16:56
專利名稱::主備設備倒換方法
技術領域:
:本發明涉及通訊領域,更具體地,涉及一種主備i殳備倒換方法。技術背景目前,在對可靠性要求較高的通信設備中,基本上都採取單板的主從備份。單板主從備份的目的在於當前主用單板出現故障時,另一塊備用單板能及時接替故障主板的工作,以維持整個系統的正常運行。主備倒換的一項關鍵技術是在當前主板出現致命故障時,備用單4反必須在儘量少豆的時間內感知到,並主動倒4灸成主用單^反,最大限度減少單板故障對業務的影響。這裡提到的致命故障可以理解為主板不再工作,如主板被拔出、主板掉電(主板上電源處理部分異常,主晶片等無法運行)、主板復位、主板軟體跑死等,出現這些情況之一,備用單板就必須在最快時間內倒換成主用狀態。主備倒換的另一項關鍵技術就是對於非致命性故障,當前主板如何判定,並將該故障狀態通知備板,然後備板需要進行綜合判斷,是否進行主備倒換。這裡的非致命性故障一般指主板軟體能檢測到的程序異常或器件異常。對於非致命性故障,倒換的實時性當然要保證,但更重要的是避免不必要的倒換和倒換振蕩(單板的主備狀態短時間內發生連續變化),以免系統的穩定性造成不良影響。從上簡述可以看出,倒換的實時性和避免倒換振蕩有一定衝突之處。目前主備系統中對實時性的考慮和措施很多,各種對於單板不在位或單^反軟體停止運行的判斷方法4艮多。對於非致命性故障,由於單板軟體依然在運行,所以有眾多判斷方法。但一般都缺乏對這些故障的進一步細分。如果把影響所有系統功能的故障都定義為非致命性故障,一發生這些故障,系統就主備倒換,顯示是不合理的,那樣將有可能導致頻繁的倒換。更不能接受的是,如果主從設備同時都存在某些輕微故障,將有可能導致重大故障發生時不發生倒換。於是為了避免這種情況,往往就只能將那些影響系統重大功能的故障定義為非致命性故障,讓系統中一發生這些故障就立即倒4奐,這樣做的弊端很顯然,就是損失了倒換實時性,系統在發生這個故障前或i午就有其它古文障^正兆,當時才尤應該倒:換。
發明內容針對現有技術中的問題,本發明提供了一種主備設備倒換方法,其將主備單板的故障狀態進行分級,讓單板軟體利用其自診斷功能,給出單板自身當前的故障級別,並實時通知對板。系統中備用單板比較兩塊單板的故障級別,只有主用單板的故障級別比備用單板故障級別高時,才允許進行主備倒換,否則保持當前主備狀態不變。根據本發明的主備設備倒換方法包括以下步驟步驟1,具有診斷功能的主設備和備設備實時診斷自身是否存在故障;步驟2,如果主設備和/或備設備存在故障,則主設備和/或備設備根據預設的故障等級分別確定自身的故障等級;步驟3,主設備和備設備實時監控對方的故障狀態是否變化,並在發現對方存在故障狀態變化時,將對方的故障等級與自身的故障等級進行比較;以及步驟4,根據比較結果,確定是否進行主設備和備設備的倒換。在步驟4中,當對方的故障等級大於自身的故障等級時,不進行主設備和備設備的倒換。另外,當對方的故障等級不大於自身的故障等級時,進行主設備和備設備的倒換。其中,故障等級包括多級,是通過主設備和備設備中的狀態信號線實現的,其中,狀態信號線被分成多根,多根中的每一根上的信號狀態的組合分別對應不同的故障等級。因而,採用本發明的方法,對單板故障進行分級的機制,系統可最大限度保證主備倒換的實時性,同時能有效防止主備倒換振蕩,尤其是在主備設備都存在輕微故障的情況下,維護了系統的穩定性。本發明的其它特徵和優點將在隨後的說明書中闡述,並且,部分地從說明書中變得顯而易見,或者通過實施本發明而了解。本發明的目的和其他優點可通過在所寫的說明書、4又利要求書、以及附圖中所特別指出的結構來實現和獲得。附圖用來提供對本發明的進一步理解,並且構成i兌明書的一部分,與本發明的實施例一起用於解釋本發明,並不構成對本發明的限制。在附圖中圖1是根據本發明的主備設備倒換方法的流程圖;圖2是根據本發明實施例的備用單板的狀態轉移圖;以及圖3是根據本發明實施例的備用單板對單板狀態信號的監控邏輯流程圖。具體實施方式以下結合附圖對本發明的優選實施例進行說明,應當理解,此處所描述的優選實施例僅用於說明和解釋本發明,並不用於限定本發明。主備單板倒換有許多種原因,如後臺人機命令倒換,周期倒換(人機命令設定每日的特定時刻倒換),主用板掉電或主用板心跳信號丟失等。總之,倒換大體可分為兩類一類是人工要求倒換(後臺人機命令倒換);另一類是主用機故障(主用板被拔出、主用板掉電、主用板心跳信號丟失、主用板復位等)。圖1是根據本發明的主備設備倒換方法的流程圖。如圖1所示,該方法包糹舌以下步驟步驟S102,具有診斷功能的主設備和備設備實時診斷自身是否存在故障;步驟S104,如果主設備和/或備設備存在故障,則主設備和/或備設備才艮據預設的故障等級分別確定自身的故障等級;步驟S106,主設備和備設備實時監控對方的故障狀態是否變化,並在發現對方存在故障狀態變化時,將對方的故障等級與自身的故障等級進行比較;以及步驟S108,根據比較結果,確定是否進行主設備和備設備的倒換。在步驟S108中,當對方的故障等級大於自身的故障等級時,不進行主設備和備設備的倒換。另外,當對方的故障等級不大於自身的故障等級時,進行主設備和備設備的倒換。其中,故障等級包括多級,是通過主設備和備設備中的狀態信號線實現的,其中,狀態信號線被分成多根,多根中的每一根上的信號狀態的組合分別對應不同的故障等級。圖2是根據本發明實施例的備用單板的狀態轉移圖,以及圖3是根據本發明實施例的備用單板對單板狀態信號的監控邏輯流程圖。以下將結合圖2和圖3對本發明的實施例進4亍詳細描述。在本發明中,在主備系統的兩塊單板上都i殳置四類信號線心跳信號線、主備狀態指示信號線、狀態信號線和主備數據同步信號線。其中,心跳信號為一脈衝信號,表徵單板是否處於運行狀態。可採用軟體控制硬體寄存器的方式獲得脈衝。主備狀態指示信號的作用是指示單板當前是處於主用還是備用狀態,目的是要估文成兩塊4反互鎖,4吏同一時刻只能夠有一塊單才反為主板。狀態信號用來表示單板的當前狀態,包括正常工作狀態、復位狀態、申請主用狀態(備板專用)、故障狀態等。該狀態信號是單板在軟體還能夠起作用時,由單板軟體維護的(若單板板軟體已不能正常工作,則對板應可通過心跳信號的斷續識別出來)。主備數據同步信號線提供兩塊單板之間的數據同步通道,保證備份單板可以無損切換成工作狀態。在本發明中,通過心跳信號來保證倒換的實時性,主備狀態指示信號來保證主備邏輯的一致性(不出現兩塊單板都是主用狀態的情況),通過狀態信號和主備數據同步信號來防止主備倒換振蕩。心跳信號必須能判斷對^反軟體是否工作正常,如果心跳〗言號丟失,表明對板單板軟體已經跑死,需要進行復位處理。為了達到這個目的,心3兆信號必須由l欠件生成,而不能通過石更件邏輯輸出。釆用單板軟體定時任務(如10ms)中的定時器來輸出心跳信號。同時加上軟體任務的監控,某個任務長時間沒有調度,將不再輸出心跳,來通知備板本板單板軟體出現異常。為保證心跳信號檢測的及時性,一般由硬體邏輯(FPGA)進行心跳信號的檢測,不需要判斷對板的狀態信號,一旦判定心跳信號丟失,應該立即產生中斷通知4欠ff應用禾呈序。當主用單板發現對板的心跳信號丟失時,可對對板進行復位操作或上才艮告警;當備份單板發現對板的心跳信號丟失時,應該立即進行主備倒換。主備倒換前不需要主動主備數據同步。心跳信號丟失的情況包括主柘j皮拔出、主玲反掉電(主玲反上電源處理部分異常,主晶片等無法運4亍)、主^反4欠件跑死、主板復位。在滿足了倒換的實時性後,可以利用狀態信號線來實施防止倒換振蕩的方案。如前說述,防止主備倒換的核心思想就是將狀態信號其中的故障狀態進行分級。為此單板的狀態信號線需要分成多根。當然單板狀態信號線的根數和故障狀態級別數目都應該由具體單板情況決定。例如,當單板狀態信號線為3#^,定義4級故障狀態時,可得到下面的狀態信號表。表l單板狀態信號含義tableseeoriginaldocumentpage9故障狀態的4個級別,定義嚴重程度為級別l為最嚴重故障狀態;級別4為最輕的故障狀態。可根據單板具體情況增加或減少故障狀態級別。單4反的故障級別定義,應該取決於單糹反具體組成和7、載功能,這裡給出一個通用的分類準則故障狀態級別1:最嚴重故障狀態,關4定任務不能正常運行或者主要通信口不可4吏用,或才企測到本板在單位時間內多次復位(如才企測到本才反在1小時內復位5次);故障狀態級別2:次嚴重故障狀態,本板關鍵任務和通信口保持正常,部分一般功能出現異常或不可用(如發現本才反FLASH讀寫異常,實時時鐘功能異常等);或一般通信口出現故障;或關4定通4言口雖可用,^旦有丟包或偶爾連^妄中斷;故障狀態級別3:檢測到非關鍵任務出現異常,或系統出現不穩定(如檢測到有緩慢內存洩漏,或有超出一般情況的復位頻率);非關鍵通信口丟包越限等;故障狀態級別4:其他4企測到的不重要故障或異常。單板軟體需具備自診斷功能,確定自身故障狀態。狀態信號的寫操作可由單板軟體控制,硬體邏輯(FPGA)負責檢測,一旦狀態信號發生變化,硬體邏輯(FPGA)將產生中斷通知單糹反4欠件。主備單板正常運行時,備用單板定時監視主用單板狀態信號(主要由硬體邏輯實現監測,監測時間可定為10ms),—旦主用單才反發生變化,處於故障狀態,備用單板硬體邏輯(FPGA)將產生中斷給單板軟體,備用單板再根據倒換邏輯決定是否倒換成主用。當然軟體本身也可以執行定時監測任務,如100ms定時查詢硬體邏輯(FPGA)的狀態寄存器,根據查詢到的對板狀態信號執行相關操作。單板上電後必須處於上表中狀態之一硬體邏輯(FPGA)運行起來前預設狀態為全"1",即"復位狀態"。單板軟體運行起來,主備控制邏輯確立後將進入"正常工作狀態"。同時單板軟體啟動故障檢測任務,檢測到故障時將狀態信號線置成相應的'3t障狀態"。單板在復位或下載前都自身狀態信號線置成"復位狀態"。倒換前,包括單板自身主備控制邏輯發起的倒換和人工倒換,備用單板都需要將本板狀態信號置成"申請主用狀態",主用機發現後決定是否接受該單板倒換(對於人工倒換,主用4幾發現應該立即放棄主用狀態)。接受後,主備倒換將完成。參看圖2,示出了備用單板的狀態轉移圖。主用單板的狀態轉移與備用單板基本相同,本文就省略對齊詳細描述。參看圖3,在本發明的實現方式中,備用單板對單板狀態信號的監控邏輯流程包括以下步驟步驟S302,單板軟體具備自i貪斷功能,實時或準實時i貪斷本才反是否存在故障;步驟S304,單^反硬體邏輯(FPGA)實時監控對外反狀態信號線,確認對板是否發生狀態變化;步驟S306,如果本板狀態信號發生變化,單糹反庫欠件是肯定知道的,而如果對板狀態信號發生變化,硬體邏輯立即產生中斷信號通知單板軟體;步驟S308,單糹反軟體進行狀態變化的處理,首先讀取對4反狀態信號;步驟S310,判斷對板狀態是否為"故障狀態",其中,如果不是,則根據具體狀態做出相應處理,而如果是,則執行步驟S312;以及步驟S312,判斷對^反故障狀態級別是否大於本^反故障狀態級別,其中,如果是,則發起主備倒換,而如果不是,保持當前主備狀態不變。在具體的實施方式中,為了系統的穩定性,建議人工操作復位和下載時,最好只對備板進行。也就是需要對主用板進行復位和下載,最好先進行人工的強制切換。同時利用主備數據同步信號的作用,對若干不可倒換的情況做出規定非人工倒換時,若對板心跳信號正常,不能通過某種方式強4亍完成倒換,也就是這種情況下主板軟體有權拒絕備板的倒換請求。但人工倒換,一旦備板發起了切換,主板軟體無權拒絕。人工倒換(後臺人機命令倒換)前單板必須主動進行主備數據同步,若人工倒換命令下發時主備板正處於數據同步通信狀態,則需要等待通信完畢後才能再進行倒換,這樣做是為避免倒換後同步方向的4晉亂,丟失真正的單4反數據。綜上所述,釆用本發明,對單4反故障進4亍分級的才幾制,系統可最大限度保證主備倒換的實時性,同時能有效防止主備倒換振蕩,尤其是在主備設備都存在輕微故障的情況下,維護了系統的穩定性。以上僅為本發明的優選實施例而已,並不用於限制本發明,對於本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護範圍之內。權利要求1.一種主備設備倒換方法,其特徵在於,包括以下步驟步驟l,具有診斷功能的主設備和備設備實時診斷自身是否存在故障;步-驟2,如果所述主i殳備和/或所述備i殳備存在故障,則所述主設備和/或所述備設備根據預設的故障等級分別確定自身的故障等級;步驟3,所述主設備和所述備設備實時監控對方的故障狀態是否變化,並在發現所述對方存在故障狀態變化時,將所述對方的故障等級與自身的故障等級進行比較;以及步驟4,根據比較結果,確定是否進行所述主設備和所述備設備的倒換。2.根據權利要求1所述的主備設備倒換方法,其特徵在於,在所述步驟4中,當所述對方的故障等級大於自身的故障等級時,不進行所述主設備和所述備設備的倒換。3.根據權利要求1所述的主備設備倒換方法,其特徵在於,在所述步驟4中,當所述對方的故障等級不大於自身的故障等級時,進行所述主設備和所述備設備的倒換。4.根據權利要求1至3中任一項所述的主備設備倒換方法,其特徵在於,所述故障等級包括多級,是通過所述主設備和所述備設備中的狀態信號線實現的,其中,所述狀態信號線被分成多根,所述多根中的每一根上的信號狀態的組合分別對應不同的故障等級。全文摘要本發明提供了一種主備設備倒換方法,其包括以下步驟步驟1,具有診斷功能的主設備和備設備實時診斷自身是否存在故障;步驟2,如果主設備和/或備設備存在故障,則主設備和/或備設備根據預設的故障等級分別確定自身的故障等級;步驟3,主設備和備設備實時監控對方的故障狀態是否變化,並在發現對方存在故障狀態變化時,將對方的故障等級與自身的故障等級進行比較;以及步驟4,根據比較結果,確定是否進行主設備和備設備的倒換。對單板故障進行分級的機制,系統可最大限度保證主備倒換的實時性,同時能有效防止主備倒換振蕩,尤其是在主備設備都存在輕微故障的情況下,維護了系統的穩定性。文檔編號H04L1/22GK101145895SQ20071015465公開日2008年3月19日申請日期2007年9月20日優先權日2007年9月20日發明者波張,瑜方,沙小寧,黃建輝申請人:中興通訊股份有限公司