新四季網

標識用於化解網絡故障的故障排除選項的製作方法

2023-04-25 22:18:41 3


數據中心是通過網絡相互通信並且結合地操作以向一個或者多個終端用戶提供計算服務和/或數據存儲服務的計算設備的匯集,其中終端用戶可以是個人、企業等。數據中心因此包括許多計算設備、許多網絡基礎設施設備(比如路由器、重路由器、交換機、網關、防火牆、虛擬專有網絡(VPN)、網橋等)、在計算設備與網絡基礎設施設備之間的通信鏈路以及在網絡基礎設施設備之間的通信鏈路。在提供前述服務時,通過網絡並且在數據中心中的計算設備之間傳輸數據。網絡基礎設施設備被配置為通過網絡指引流量。

在常規數據中心中,網絡基礎設施設備包括往往相對地昂貴的高端設備。然而,近來,數據中心已經被配置為包括許多商品(例如,現貨)網絡基礎設施設備以減少與數據中心關聯的資金成本。儘管這些商品設備成本少於「高端」設備,但是商品設備往往有些不如高端設備可靠,從而造成數據中心操作者保證無間斷服務的增加的負擔。然而,化解網絡故障可能複雜並且因此耗費時間,因為數據中心中的網絡基礎設施設備可能由許多不同製造商製造,因為數據中心中的計算和/或網絡設備可以讓不同作業系統安裝在其上,因為製造商可以生成不同型號的相同類型的設備等等。因此,在常規數據中心中存在顯著數量的異構性。

在相對大的數據中心中,運用操作團隊以保證滿足向終端用戶承諾(例如,在服務水平協定中)的計算服務和存儲服務。因而,在網絡設備(例如,計算設備或者網絡基礎設施設備)生成警報時,警報被引向由操作團隊上的操作者監視的操作者控制臺。操作者審查警報,並且基於個人知識和經驗(以及可能地基於一些靜態方針),操作者執行故障排除和調試以嘗試僅減輕(而不是診斷)或者修復由警報指示的故障(通過診斷問題根本原因)。儘管這一方式可以對於相對小的數據中心是適合的,但是這樣的方式沒有縮放。例如,數據中心正在縮放以包括數十萬個計算設備和數千個網絡基礎設施設備。在特定事件出現時,大量警報可能在相對少量時間內由數據中心中的設備生成。操作者必須解析警報以對將被初始地解決的警報進行優先級化,並且然後通常地使用試錯方式(潛在地由預定義的由人生成的方針驅動)以解決被認為是高優先級的警報。由於潛在網絡問題的相對高的複雜性,操作者可能需要延長的故障排除時間窗口,這可能造成服務停用。



技術實現要素:

下文是這裡更具體描述的主題內容的簡要發明內容。這一發明內容並未旨在於關於權利要求的範圍有所限制。

這裡描述的是涉及標識可以用來化解數據中心中的網絡故障的潛在故障排除選項和化解步驟的各種技術。向操作者提供故障排除選項和化解步驟,該操作者可以消耗故障排除選項和化解步驟並且使用提供的故障排除選項和化解步驟來化解網絡故障。這裡附加地描述的是涉及基於由數據中心中的設備生成的警報來對網絡故障進行優先級化的各種技術,其中優先級化的列表可以被揭示給操作者以促進優先處理警報。

數據中心包括多個聯網的計算設備,其中可以藉助多個網絡基礎設施設備(比如路由器、協同路由器、交換機、負載平衡器、防火牆、虛擬專有網絡(VPN)以及其它網絡基礎設施設備)通過網絡鏈路在計算設備之間傳輸數據。計算設備和/或網絡基礎設施設備(統稱為「設備」)可以被配置為生成指示網絡故障的警報。例如,交換機可以被配置為在交換機檢測到在交換機與另一設備之間的鏈路停用時生成警報。接收警報,並且關於警報是否指示可作用的網絡事件(例如,將要被化解的網絡故障)做出確定。在確定警報指示可化解的網絡故障時,可以將故障狀況和關聯的遙測數據映射到在以下各項上經歷的觀測的症狀的集合:1)出故障的設備或者鏈路;2)出故障的設備的平臺;3)在網絡拓撲中與出故障的設備鄰接的設備;4)與出故障的設備共享性能的設備;和/或5)在與出故障的設備相同的數據中心中的設備以及其它方面。因而,可以對於出故障的設備或者鏈路標識至少一個症狀(例如,「設備停用」、「鏈路抖動」、「高CPU利用率」…)。

響應於對於出故障的設備或者鏈路標識症狀,可以標識可以潛在地化解網絡故障的多個推薦的故障排除選項。故障排除選項可以基於以往觀測的用於化解涉及出故障的設備或者鏈路、出故障的設備類型、出故障的設備平臺等的網絡故障的先前故障排除選項。故障排除選項可以具有向它們指派的相應的標籤,其中標籤指示故障排除選項在由操作者採取時將化解由警報指示的網絡故障的相應的概率。可以基於故障排除選項在關於出故障的設備或者鏈路、出故障的設備類型、出故障的設備平臺等採用時的以往成功或者失敗標識標籤。因而,可以向操作者提供用於化解網絡故障的故障排除選項的列表以及分別向故障排除選項指派的標籤,這些標籤指示故障排除選項將化解網絡故障的相應的概率。另外,操作者可以與故障排除選項的概率組合地運用領域知識(例如,來自由領域專家提供的經驗或者知識)以確定用於執行以化解故障的動作的序列。

附加地,對於故障排除選項的列表中的故障排除選項,可以向操作者呈現多個調試步驟,其中可以向調試步驟指派分別指示調試步驟將糾正網絡故障的概率的標籤。在非限制的示例中,網絡基礎設施設備可以輸出警報,該警報指示下遊網絡基礎設施設備未答覆心跳請求。可以接收警報,並且可以將警報中的故障狀況映射到先前觀測到的症狀「設備停用」。對於這樣的症狀,可以向操作者呈現按照它們化解故障的相應的概率排名的三個故障排除選項:1)「檢查線纜」、2)「檢查電源」和3)「檢查網卡」。向故障排除選項指派的標籤可以指示第一故障排除選項最可能化解網絡故障,第二故障排除選項第二最可能化解網絡故障,並且第三故障排除選項第三最可能化解網絡故障。另外,對於故障排除選項的列表中的故障排除選項,可以向操作者提供至少一個調試步驟。例如,對於故障排除選項「檢查線纜」,可以向操作者呈現兩個潛在調試步驟。每個調試步驟可以被指派有指示調試步驟將化解網絡故障的概率的相應的標籤。例如,可以呈現調試步驟「重裝線纜」和「清理線纜」作為調試步驟,其中第一調試步驟被指示為比第二調試步驟更可能糾正網絡故障。可能性的指示可以是基於由數據中心操作者對出故障的設備或者鏈路或者與出故障的設備或者鏈路有關的設備先前採取的觀測到的調試步驟計算出的概率的函數。

數據驅動的方式可以用來標識故障排除選項和調試步驟,以及向故障排除選項和調試步驟指派相應的標籤。例如,在操作者藉助故障排除選項和對應的調試步驟化解網絡故障時,操作者可以提供指示是否正確地標識了症狀的反饋、可以標識選擇了哪個故障排除選項並且可以標識哪些調試步驟用來化解網絡故障。因而,在後續地接收到不同警報(涉及出故障的設備或者鏈路、出故障的設備的類型、出故障的設備的平臺等)時,可以將故障狀況適當地映射到症狀,並且可以基於這一反饋更新分別向故障排除選項和調試步驟指派的標籤。因此,故障排除選項和調試步驟的準確性可以隨時間增加。

附加地,如這裡將描述的那樣,可以對警報進行分組以代表單個網絡故障,並且可以對網絡故障進行優先級化。也就是說,取代隔離地對待低級網絡警報,警報可以被相互相關(分組)以代表單個網絡故障。按照一個示例,這一分組可以基於三個標準:1)時間;由第一設備生成的第一警報可以與由相同接口上的第一設備或者第二設備在時間上新近地生成的第二警報被分組在一起;2)位置;第一警報可以與由第二設備生成的第二警報被分組在一起,該第二設備在網絡中是第一設備的鄰居(例如,在分級網絡拓撲中的上遊或者下遊1-2個跳躍);以及3)冗餘性;第一警報可以與由在與第一設備相同的冗餘性組中的第二設備生成的第二警報被分組在一起(例如,該第二警報可以指示故障轉移協議的問題)。對警報進行分組以代表網絡故障可以用來對當前網絡故障進行分類和排名,從而使得可能造成高業務影響的網絡故障可以比造成低業務影響的網絡故障被更高地優先級化。

以上發明內容呈現了簡化的發明內容以便提供對這裡討論的系統和/或方法的一些方面的基本理解。這一發明內容不是對這裡討論的系統和/或方法的廣泛概述。它並未旨在於標識重要/關鍵要素或者界定這樣的系統和/或方法的範圍。它的唯一目的是以簡化的形式呈現一些概念作為後文呈現的具體實施方式的前序。

附圖說明

圖1圖示了數據中心的示例性部分。

圖2圖示了示例西歐美國數據中心架構。

圖3是接收由數據中心中的網絡設備生成的警報並且響應於接收警報來輸出故障排除選項和調試步驟的示例性化解系統的功能框圖。

圖4是在化解系統中包括的示例性化解標識器部件的功能框圖。

圖5是示例性故障歷史表。

圖6是示例性圖形用戶界面,該圖形用戶界面描繪了用於化解由警報指示的網絡故障的潛在故障排除選項和調試步驟。

圖7圖示了在化解系統中可選地包括的示例性警報優先級化器部件。

圖8是圖示了用於輸出故障排除選項的示例性方法的流程圖,這些故障排除選項用於化解由網絡設備生成的警報指示的網絡故障。

圖9是圖示了用於首先對有關警報進行分組並且然後輸出網絡故障的排名的列表的示例性方法的流程圖。

圖10是圖示了用於基於操作者反饋更新涉及數據中心的歷史數據的示例性方法的流程圖。

圖11是示例性計算系統。

具體實施方式

現在參照附圖描述涉及化解數據中心的網絡故障的各種技術,其中相似標號用來全篇指代相似要素。在以下描述中,出於說明的目的,闡述了許多具體細節以便提供對一個或者多個方面的透徹理解。然而,可以不言而喻的是,沒有這些具體細節仍然可以實現這樣的方面。在其它實例中,以框圖形式示出了公知的結構和設備以便促進描述一個或者多個方面。另外,將理解,被描述為由某些系統部件執行的功能可以由多個部件執行。相似地,例如,一個部件可以被配置為執行被描述為由多個部件執行的功能。

另外,措詞「或者」旨在於意味著包含意義的「或者」而不是排他意義的「或者」。也就是說,除非另有指明或者從上下文清楚,短語「X運用A或者B」意味著自然的包含意義的排列組合中的任何排列組合。也就是說,以下實例中的任一實例滿足短語「X運用A或者B」:X運用A;X運用B;或者X運用A和B二者。附加地,如在本申請和所附權利要求中使用的冠詞「一個/一種」應當一般地被解釋為意味著「一個或者多個」,除非另外指定或者從上下文清楚涉及單數形式。

另外,如這裡所用,術語「部件」和「系統」旨在於涵蓋計算機可讀數據存儲裝置,該計算機可讀數據存儲裝置被配置有在由處理器執行時使某個功能被執行的計算機可執行指令。計算機可執行指令可以包括例程、函數等。也將理解,部件或者系統可以被局限在單個設備上或者跨若干設備被分布。另外,如這裡所用,術語「示例性」旨在於意味著用作某事物的例示或者示例而未旨在於指示偏好。

現在參照圖1,圖示了示例性數據中心100(這裡被稱為數據中心100)的一部分。數據中心100可以被配置為向終端用戶102提供服務,其中這樣的服務可以是計算服務和/或存儲服務,並且其中終端用戶102可以是個人、企業等。在一個示例中,數據中心100可以是由特定企業擁有的企業數據中心並且為企業提供計算和存儲服務。在這樣的情形中,終端用戶102可以是在企業、企業的部門等中工作的個人。在另一示例中,數據中心100可以由第一公司操作,並且終端用戶102可以是第二公司(例如,第一公司向第二公司出租數據存儲和計算資源)。在又一示例中,數據中心100可以由公司操作,並且終端用戶102可以是個人。可以由數據中心100賦予的示例性計算服務和/或存儲服務包括電子郵件服務、搜索服務、存儲、在線服務等。在一個示例中,終端用戶102可以操作計算設備103並且可以藉助計算設備103向數據中心100傳輸數據和從數據中心100接收數據,其中計算設備103可以是任何適當類型的計算設備、包括但不限於臺式計算設備、移動計算設備(例如,膝上型計算設備、行動電話、平板計算設備、可穿戴計算設備等)、伺服器等。

數據中心100包括多個計算設備104-110,其中計算設備104-110可以包括伺服器、專用存儲設備等。計算設備104-110被配置為基於來自終端用戶102的計算設備103的請求執行動作(例如,存儲數據、處理數據和/或傳輸數據)。例如,終端用戶102可以請求對第一計算設備104的存儲裝置中的內容執行搜索,並且第一計算設備104可以被配置為響應於數據中心100接收請求來執行搜索並且輸出搜索結果。在另一示例中,第二計算設備016可以存儲搜尋引擎索引的部分,並且可以被配置為響應於從計算設備103接收用於這樣做的請求來向數據中心100中的另一計算設備(或者向另一數據中心)傳輸搜尋引擎索引的部分。

數據中心100還包括多個網絡基礎設施設備114-120。網絡基礎設施設備被配置為促進在數據中心100中的計算設備104-110中的計算設備之間傳輸數據、促進在數據中心之間傳輸數據以及促進在由終端用戶102操作的計算設備103與計算設備104-110之間傳輸數據。在圖1中描繪的示例性數據中心100中,網絡基礎設施設備114-120包括兩個交換機114和116、路由器118和防火牆120。數據中心100中的設備(其中「設備」統一地指代計算設備和網絡基礎設施設備)藉助網絡鏈路相互通信地耦合。因此,例如,第一計算設備104藉助第一網絡鏈路與交換機114通信地耦合,第二計算設備106藉助第二網絡鏈路與交換機114通信地耦合,交換機114藉助第三網絡鏈路通信地耦合到路由器118,等等。將理解,儘管數據中心100被示出為包括相對少量的設備,數據中心也可以包括數千個計算設備和數千個網絡基礎設施設備。另外,網絡基礎設施設備114-120可以包括基於硬體和/或軟體的設備。例如,路由器118可以是由計算設備執行的基於軟體的路由器。相似地,防火牆120可以是在硬體路由器或者計算設備中執行的軟體防火牆。

計算設備104-110和/或網絡基礎設施設備114-120可以被配置為在檢測到某些相應的事件時輸出警報。在一個示例中,路由器118可以被配置為在路由器118輸出被引向特定計算設備的心跳請求(例如,用於答覆消息的請求)並且未能在從傳輸心跳的閾值時間量內接收一個或者多個響應時輸出警報。在另一示例中,在數據中心100以內運行的分布式過程的集合(被稱為「運行器」或者「看門狗」)或者在數據中心100以外運行的分布式過程的集合除了執行合成微事務的集合之外還周期性地向服務、伺服器或者計算設備發送心跳請求以保證服務、伺服器或者計算設備從終端用戶的角度來看可用(例如,發送小的測試郵件以檢查郵件服務正在恰當地運行)。可以在未接收到對心跳請求的響應時生成警報。因而,警報可以指示網絡故障:例如,計算設備停用,或者在路由器118與特定計算設備之間的網絡鏈路停用。在另一示例中,交換機114可以被配置為在經過交換機114被指引的數據量達到預定義的閾值時生成警報。

化解系統122接收由計算設備104-110和/或網絡基礎設施設備114-120生成的警報並且向由網絡操作者126運用的操作者臺124輸出數據以輔助網絡操作者126化解由至少一個警報指示的網絡故障。如這裡將更具體描述的那樣,化解系統122可以基於至少一個接收到的警報標識網絡故障,並且可以標識用於化解網絡故障的多個潛在故障排除選項。故障排除選項可以被感知為可以由操作者執行的高級別檢查,比如「檢查網卡」、「檢查線纜」等。另外,化解系統122可以向故障排除選項指派相應的標籤,其中標籤分別指示故障排除選項將在被網絡操作者126採取時化解網絡故障的概率。如這裡將更具體描述的那樣,化解系統122可以基於由網絡操作者126(或者在用於數據中心100的操作團隊中的其他操作者)採取的先前故障排除選項來標識故障排除選項和相應的標籤以化解相似的網絡故障(例如,具有相似症狀的網絡故障)。

因此,向操作者126提供操作者126可以逐步用來化解網絡故障的故障排除選項的優先級化的列表。另外,故障排除選項可以具有向它指派的一個或者多個調試步驟,其中調試步驟向操作者126提供用於化解網絡故障的更多粒度的指令(在與故障排除選項比較時)。在一個示例中,在操作者126選擇特定故障排除選項時,可以向操作者126呈現調試步驟的列表。附加地,每個調試步驟可以具有向它指派的相應的標籤,其中標籤指示調試步驟將化解標識的網絡故障的概率(假設故障排除選項是正確選項)。從操作者126的角度來看,向操作者126提供故障排除選項的列表,操作者126可以從該列表選擇特定故障排除選項(例如,與化解網絡故障的最高概率關聯的故障排除選項),並且然後可以按照概率的順序執行調試步驟。附加地,還可以向操作者126提供計數,這些計數指示採取故障排除選項和/或調試步驟的次數和/或故障排除選項和/或調試步驟成功的次數。例如,可以向兩個故障排除選項指派等效概率(例如,50%)。然而,向第一故障排除選項指派的第一標籤可以指示故障排除選項被採用兩次並且成功一次,而向第二故障排除選項指派的第二標籤可以指示故障排除選項被選擇一千次並且成功五百次。在操作者126化解網絡故障時,操作者126可以向化解系統122提供關於哪個故障排除選項(如果有)和哪些調試步驟(如果有)化解了網絡故障的反饋。這一反饋可以在後續警報被接收時由化解系統122運用,其中故障排除選項、調試步驟和對應的標籤可以基於反饋。因此,化解系統122使用數據驅動的方式以向操作者提供網絡故障化解指令。

化解系統122還可以被配置為對針對操作者126的網絡故障進行優先級化,從而使得優先處理(triage)網絡故障。如本領域技術人員將理解的,一些網絡故障對利潤、數據吞吐量等比其他網絡故障具有更大影響。化解系統122可以被配置為從計算設備104-110和/或網絡基礎設施設備114-120接收警報,並且將警報與至少一個其它警報分組在一起以代表單個網絡故障。因此,取代操作者126分析低級獨立警報,可以向操作者126提供網絡故障的更高級別表示。另外,化解系統122可以相對於彼此對網絡故障進行優先級化,從而使得操作者126首先被引向具有最高影響的故障排除網絡故障,繼而是具有更低影響的網絡故障。

儘管化解系統122被示出為被包括在數據中心100中,但是將理解,可以在數據中心100外部的計算設備上執行化解系統122。例如,數據中心100可以包括被配置為向執行化解系統122的外部設備傳輸所有收集的網絡警報的計算設備。另外,將理解,可以在一個計算設備上執行或者跨多個計算設備分布化解系統122。在又一示例中,化解系統122可以在虛擬機(VM)中執行,其中在一個計算設備上執行或者跨多個計算設備(在數據中心100內部或者外部)分布VM。

現在參照圖2,圖示了示例性(部分)數據中心架構200,其中可以在數據中心架構200中包括數據中心100。將理解,數據中心架構200是示例性的並且其它拓撲變體(比如平坦網絡/Clos拓撲)可以包括數據中心100並且旨在於被所附權利要求覆蓋。數據中心架構200包括多個架頂(ToR)交換機202-208。相應的多個架裝伺服器(未示出)可以被連接(或者雙歸屬)到ToR交換機202-208中的每個ToR交換機。

架構200也包括主要聚合交換機210和備用聚合交換機212,其中ToR交換機202-208中的每個ToR交換機被連接到主要聚合交換機210和備用聚合交換機212(為了冗餘性)。在實踐中,數據中心包括若干對主要和備用聚合交換機,並且每個冗餘對的聚合交換機聚合來自若干(例如,數十個)ToR交換機的流量。架構200可以包括被連接到主要聚合交換機210的第一冗餘對的負載平衡器214-216以及被連接到備用聚合交換機212的第二冗餘對的負載平衡器218和220。負載平衡器214-220可以執行在靜態IP位址(例如,通過DNS暴露給客戶端)與處理用戶請求的伺服器的動態IP位址之間的映射。

架構200還包括主要接入路由器222和備用接入路由器224。主要聚合交換機210、備用聚合交換機212、主要接入路由器222和備用接入路由器224可以形成冗餘性組。在具有架構200的數據中心中,冗餘的設備和鏈路組可以用來屏蔽網絡故障。聚合交換機210-212向接入路由器222-224轉發(從ToR 202-208聚合的)流量。架構200也包括各自被連接到兩個接入路由器222-224的主要核心路由器226和備用核心路由器228。主要接入路由器222、備用接入路由器224、主要核心路由器226和備用核心路由器228形成另一冗餘性組。接入路由器222-224例如路由來自上至數千個伺服器的聚合的流量並且向核心路由器226-228路由流量。核心路由器226-228連接到數據中心網絡的其餘部件和網際網路230。

在一個示例性實施例中,架構中的伺服器(例如,耦合到ToR交換機202-208)可以被分割成虛擬區域網(VLAN)以限制開銷並且隔離在網絡中主控的不同應用。在數據中心拓撲的每層(其中TOR交換機的子集可能例外),冗餘性(例如,1:1冗餘性)可以被構建到網絡拓撲中以減輕故障。另外,除了路由器和交換機之外,架構200還可以包括中間盒,比如負載平衡器、防火牆等。從前文可以查明計算設備104-110可以是架構中的伺服器計算設備,交換機114-116可以是聚合交換機,路由器118可以是接入路由器或者核心接入區,等等。

現在參照圖3,圖示了化解系統122的功能框圖。如以上指示的那樣,化解系統122可以接收在不同時間點由數據中心100中的多個設備生成的警報。化解系統120包括接收由數據中心100中的設備生成的警報的警報接收器部件302。化解標識器部件304與警報接收器部件302通信並且被配置為查明由警報接收器部件302接收的警報是否指示可作用的網絡故障(例如,操作者126可以經由故障排除和調試來化解的網絡故障)。按照一個示例,由路由器118生成的警報可以指示路由器118不能與交換機116通信,該交換機116又可以(例如)指示以下各項中的任一項:1)路由器出故障、2)交換機停用;3)在路由器118與交換機116之間的網絡鏈路上的線纜敷設鬆動等等。這些是可以由操作者126化解的可作用的網絡故障。

化解系統122可以包括包括歷史數據308的數據存儲庫306或者具有對其的訪問。如以下將更具體描述的那樣,歷史數據306可以包括用於數據中心100中的設備和鏈路的「故障歷史表」,其中用於設備或者鏈路的故障歷史表可以包括描述設備或者鏈路的以往故障的信息,包括故障症狀、最新近故障的時間、在閾值時間段內的故障數目、配置改變等。

在操作中,警報接收器部件302接收包括故障狀況的警報。故障狀況可以包括警報的生成時間、展現故障症狀的設備或者鏈路的身份、生成警報的設備的身份、與檢測到的事件對應的接口的標識、包括展現故障症狀的設備或者鏈路的數據中心的身份等。化解標識器部件304基於警報(和可選地基於其它接收的警報)可以確定警報指示可作用的網絡故障,並且還可以基於警報的內容標識出故障的設備或者鏈路(例如,在一些情況下,生成警報的設備並不是出故障的設備)。化解標識器部件304可以將在警報中指示的故障狀況和關聯的遙測數據映射到在歷史數據308中包括的先前觀測到的故障症狀的集合。在一個示例中,出故障的設備或者鏈路可能先前已經展現了故障症狀,與出故障的設備相同類型的設備可能先前已經展現了故障症狀,與出故障的設備共享平臺的設備可能先前已經展現了故障症狀,網絡中的鄰近設備(例如,從出故障的設備的上遊或者下遊1-2個跳躍)可能先前已經展現故障症狀,等等。還設想了在警報的故障狀況不能被映射到症狀的實例中,則靜態方針可以被揭示給操作者126。

響應於經由映射標識觀測的症狀,化解標識器部件304可以對歷史數據308執行統計分析以標識多個推薦的故障排除選項以及分別對應於故障排除選項的調試步驟,以用於由操作者126用來化解網絡故障。另外,故障排除選項和關聯的調試步驟可以各自按照置信度被排名,從而使得向操作者126最顯著地呈現具有化解網絡問題的最高置信度的故障排除選項和調試步驟。

例如,化解標識器部件304可以確定由交換機116生成的網絡警報指示數據中心100中的第三計算設備108未對心跳請求做出響應,這些心跳請求可以例如被映射到用於第三計算設備108(或者數據中心100中或者另一數據中心中的其它設備)的以下先前觀測到的故障症狀:1)「鏈路抖動」;以及2)「設備停用」。對於由化解標識器部件304標識的這樣的症狀中的每個症狀,化解標識器部件304可以標識歷史數據308中的先前指示為被執行以化解具有這樣的症狀的網絡故障的故障排除選項和對應的調試步驟。另外,化解標識器部件304可以向故障排除選項和調試步驟指派分別指示故障排除選項和調試步驟將減輕網絡故障的概率的標籤。以下進一步具體描述歷史數據308中的數據的示例性結構,該結構促進症狀、故障排除選項、調試步驟和標籤的標識。

在一個示例性實施例中,化解標識器部件304然後可以向操作者126輸出症狀、故障排除選項、調試步驟和對應的標籤。有效地,然後向操作者126提供用於每個症狀的故障排除選項和化解步驟的優先級化的列表,該症狀被映射到接收到的警報的故障狀況(該警報指示可作用的網絡故障)。操作者126然後可以按照基於向故障排除選項和調試步驟指派的標籤的順序逐步進行故障排除選項和調試步驟,從而造成相對高效地化解網絡故障。

在另一示例性實施例中,化解標識器部件304可以標識至少一個故障排除選項和至少一個調試步驟,並且可以向數據中心100中的設備傳輸可以使至少一個故障排除選項被選擇和至少一個調試步驟被執行的信號,而沒有來自操作者126的介入。在一個非限制的示例中,化解標識器部件304可以確定存在重新引導交換機116將減輕觀測到的網絡故障症狀的相對高概率。化解標識器部件304可以向交換機116傳輸使交換機116被重新引導的信號,而未向操作者126揭示警報或者以別的方式需要操作者介入。

在一個示例中,化解標識器部件304可以在以下各項時在向操作者126揭示故障排除選項和調試步驟之前嘗試自動地化解網絡故障:1)故障排除選項和調試步驟化解網絡故障的計算出的概率在預定義的概率閾值(例如,0.9)以上;2)故障排除選項和調試步驟化解網絡故障的計算出的概率在用於化解網絡故障的故障排除選項和調試步驟的k個最高概率之中(例如,在最可能化解網絡故障的三個故障排除選項和調試步驟之中);3)自動選擇故障排除選項和執行調試步驟未造成冗餘性故障;4)自動選擇故障排除選項和執行調試步驟未花費多於閾值數量的時間(例如,一分鐘);和/或5)自動選擇故障排除選項和執行調試步驟未去除促進通過數據中心100傳送相對大量流量的設備。也設想了用於確定何時自動選擇調試選項和執行調試步驟的其它因素。

化解標識器部件304還可以被配置為向操作者126揭示涉及網絡故障的附加數據。例如,化解標識器部件304可以查詢歷史數據308以跨多種維度聚合故障數據。在一個示例中,關於特定出故障的設備或者鏈路(例如,被標識為出故障的設備或者以別的方式由操作者126標識),化解標識器部件304可以輸出數據,該數據指示設備或者鏈路已經出故障(例如,在閾值歷史時間窗口內)的次數、設備或者鏈路出故障的頻率相對於數據中心100中的其它設備或者鏈路出故障的頻率、設備出故障的頻率相對於數據中心100中的相同類型的其它設備出故障的頻率等。

在另一示例中,操作者126可以闡述用於涉及特定設備類型、平臺或者數據中心的信息的請求,並且化解標識器部件304可以跨多個參數聚合故障數據以揭示用於操作者126的故障信息。在一個非限制的示例中,響應於從操作者126接收用於關於設備平臺的信息的請求,化解標識器部件304可以輸出數據,該數據標識該平臺上的最頻繁地出故障的設備、平臺上的設備故障相對於其它平臺的頻率、不同類型的設備的故障相對於彼此的頻率等。

在又一示例中,操作者126可以請求揭示關於數據中心維度/軸而不是指定的設備或者設備類型的信息。例如,操作者126可以請求數據中心100中的最頻繁地出故障的設備的標識,並且化解標識器部件304可以返回數據中心100中的最頻繁地出故障的設備的列表。相似地,操作者126可以請求數據中心100中的最穩定設備的標識,並且化解標識器部件304可以返回數據中心100中的最不頻繁地出故障的設備的列表。歷史數據308的結構促進聚合關於多個維度/軸的信息。

化解系統122也可以包括反饋部件312,該反饋部件312被配置為從操作者126接收關於對於出故障的設備而觀測到的症狀的反饋、採取的用於糾正由出故障的設備引起的網絡故障的故障排除選項和/或調試步驟以及其它信息。反饋部件312響應於從操作者126接收到信息然後可以被配置為更新歷史數據308(例如,用於出故障的設備的歷史故障表)。因此,在警報後續地由化解系統122接收時,化解標識器部件304可以基於操作者126的新近觀測輸出更新的故障症狀、故障排除選項、調試步驟和/或標籤。

化解系統122可以可選地包括事件優先級化器部件314,該事件優先級化器部件314對用於向操作者126呈現的可作用的網絡故障進行優先級化。例如在特定時間窗口期間(例如,由於作業系統補丁初次公開),數據中心100中的許多設備可能生成警報,從而常規地要求操作者126解析大量警報以確定哪些警報代表可作用的網絡故障並且進一步對網絡故障進行優先級化。事件優先級化器部件314通過使若干警報相關以代表單一網絡故障並且對網絡故障進行優先級化(例如,按照網絡故障的影響)來減輕對操作者126的負擔。

結合對網絡故障進行優先級化,數據存儲庫306可以包括代表數據中心100的分級網絡拓撲的網路圖310,並且事件優先級化器部件314可以基於網絡圖310對網絡故障進行優先級化。例如,由與網絡分級的最高級接近的(如在網絡圖形308中標識的)設備引起的網絡故障引起高的服務停用風險,並且因此可以比由在網絡分級中更低的設備引起的網絡故障被更高地優先級化。在另一示例中,事件優先級化部件312可以按照可能由於相應的網絡故障而被影響的性能數目(或者甚至有高的業務智能影響風險的單個性能)對網絡故障進行優先級化。

現在參照圖4,描繪了化解標識器部件304的功能框圖。化解標識器部件304接收由數據中心100中的設備生成的警報400。例如,設備可以是計算設備104-110之一或者網絡基礎設施設備114-120之一。在圖4中所示的示例中,警報400包括多個故障狀況:1)指示警報何時由設備生成的時間戳;2)標識從設備生成的唯一警報的警報ID;3)標識生成了警報的設備的設備ID;4)標識正在經歷故障的特定埠或者網絡鏈路的接口鏈路;以及5)事件描述,該事件描述包括提供關於故障的更多細節的機器生成的文本並且由生成了警報400的設備輸出。將理解,警報400的內容可以與圖4中示出的和這裡描述的內容不同。

化解標識器部件304接收警報400,並且在一個示例性實施例中,可以確定警報是否指示可作用的網絡動作。更具體而言,化解標識器部件304包括故障標識器部件402,該故障標識器部件402分析警報400並且可以標識警報400代表可作用的網絡故障,而且還可以標識出故障的設備或者鏈路(例如,基於設備ID和/或網絡圖310)。例如,生成了警報400的設備(生成設備)可能正在恰當地操作;然而,連接到生成了警報(例如,藉助在警報400中標識的接口)的網絡基礎設施設備(出故障的設備)可能正在出故障。在一個示例中,警報400中的事件描述可以指示由設備ID標識的設備沒有對在特定網絡鏈路之上的心跳請求做出響應。

另外,故障標識器部件402可以向警報400指派元數據,該元數據指示由警報指示的網絡故障的嚴重性。在一個示例中,響應於故障標識器部件402標識出故障的設備或者鏈路,故障標識器部件402可以標識由設備或者鏈路出故障引起的流量損失。例如,故障標識器部件402可以基於可能由警報400代表的事件引起的流量損失量向警報400指派多個預定義的值之一。因此,故障標識器部件402可以向警報400指派「高」、「中」或者「低」之一以代表網絡警報的嚴重性。按照一個示例,這一值可以被放置在設備故障歷史表和/或鏈路故障歷史表中。

另外,故障標識器部件402可以向警報400指派值,該值指示與數據中心100中的冗餘性有關的風險。例如,值可以指示由警報400代表的故障是否在冗餘性組內引起流量損失。對於其中冗餘性有效並且流量損失最少的事件,可以自動地選擇故障排除選項,並且可以自動地執行調試步驟以自動優先處理由警報400代表的故障事件。示例性值可以包括「冗餘性成功」、「冗餘性故障」或者「冗餘性處於風險」,其中「冗餘性處於風險」可以指示出故障的設備或者鏈路是單支路的。

化解標識器部件304還包括映射器部件404。響應於故障標識器部件402標識出故障的設備或者鏈路,映射器部件404可以訪問歷史數據308並且將在警報400(或者代表網絡故障的一組相關的警報)中指示的故障狀況(和關聯的遙測數據)映射到在歷史數據308中代表的至少一個先前觀測到的症狀。

具體而言涉及歷史數據308的一個示例性結構,歷史數據308可以包括多個設備故障歷史表406-408和多個鏈路故障歷史表410-412,其中設備故障歷史表406-408中的每個故障歷史表用於數據中心100中的相應的設備,並且鏈路故障歷史表410-412中的每個故障歷史表用於數據中心100中的相應的鏈路。可選地,歷史數據308可以包括用於其它數據中心中的設備/鏈路的故障歷史表。另外,儘管歷史數據308被示出為集中的,但是將理解,可以在許多存儲設備之上分布故障歷史表410-412。

第一設備故障歷史表406可以包括用於數據中心100中的第一設備的歷史故障信息。這一故障信息可以包括但不限於包括:1)描述第一設備的數據,包括第一設備的身份、第一設備的製造商、第一設備的類型、第一設備的型號、第一設備的平臺等;2)第一設備隨時間的可用性(和自從最新近故障起已經經過的時間量);3)網絡監視數據,比如穿過第一設備的流量、第一設備的當前CPU和存儲器利用率、第一設備隨時間的CPU利用率、第一設備隨時間的存儲器利用率、第一設備的連接數目等;4)指示對第一設備做出的配置改變的數據;5)對於第一設備的觀測到的故障症狀、先前用來緩解故障症狀的故障排除選項和先前被採取以化解故障症狀的調試步驟;6)對第一設備執行的硬體和軟體改變;7)歷史上已經對設備工作的工程師和操作者的身份;以及8)對第一設備做出的超保修部件更換的數目。第n設備故障歷史表408可以包括類似信息。簡要地轉向圖5,圖示了示例性故障歷史表500的內容。

第一鏈路故障歷史表410可以包括用於數據中心中的第一鏈路的歷史故障數據。這一故障信息可以包括但不限於包括:1)描述第一鏈路的數據,包括第一設備的身份、經由第一鏈路連接的設備、這樣的設備/鏈路的製造商、這樣的設備的平臺等;2)第一鏈路隨時間的可用性(和自從最新近故障起已經經過的時間量);3)網絡監視數據,比如通過鏈路的當前流量、通過鏈路的歷史流量等;4)指示對經由鏈路耦合的設備的配置改變的數據;5)對於鏈路的觀測到的故障症狀、先前用來緩解故障症狀的故障排除選項和先前被採取以化解故障症狀的調試步驟;6)對經由鏈路連接的設備執行的硬體和軟體改變;7)鏈路的類型,例如,銅比對光;8)鏈路的容量等。第m鏈路故障歷史表412可以包括類似信息。

因此,映射器部件408可以接收警報400並且將警報400中的故障狀況映射到在設備故障歷史表406-408或者鏈路故障歷史表410-412中的至少一個故障歷史表中標識的對於出故障的設備的至少一個觀測到的症狀。例如,映射器部件404可以初始地訪問出故障的設備的故障歷史表,並且查明故障狀況是否映射到對於出故障的設備的先前觀測到的故障症狀。映射器部件404然後可以將搜索擴展到網絡中的鄰近設備和/或與出故障的設備相同類型和/或型號的設備以標識映射到在警報400中指示的故障狀況的先前觀測到的故障症狀。在一個非限制的示例中,映射器部件404可以將警報400的故障狀況映射到先前觀測到的症狀:如在用於出故障的設備的故障歷史表中標識的對於出故障的設備的:1)「設備停用」;以及2)「鏈路抖動」。

化解標識器部件304還包括標籤指派器部件414,該標籤指派器部件414將在歷史數據308中標識的故障排除選項標識為先前被採取用以化解由映射器部件404標識的網絡故障症狀。標籤指派器部件414還向相應的故障排除選項指派標籤,其中標籤指示故障排除選項將減輕網絡故障症狀的概率。

在一個示例性實施例中,標籤指派器部件414可以初始地搜索出故障的設備的設備故障歷史表(或者用於出故障的鏈路的鏈路故障歷史表)以查明是否對於觀測到的症狀和設備先前已經採取了任何故障排除選項和/或調試步驟。在出故障的設備和/或鏈路已經受到相對大量故障排除和調試時,標籤指派器部件414可以無需對歷史數據308執行進一步搜索。例如,在用於出故障的設備的故障歷史表指示重新引導設備的故障排除選項先前已經(和以高置信度)緩解了由出故障的設備展現的故障症狀時,標籤指派器部件414可以輸出故障排除選項而不分析其它設備的其它故障歷史表的內容。備選地,在用於出故障的設備的故障歷史表指示出故障的設備先前尚未展現症狀(或者已經不頻繁地展現症狀)時,則標籤指派器部件414然後可以搜索其它設備(例如網絡拓撲中的鄰近設備、相同製造商的設備、相同類型的設備等)的故障歷史表。通過對歷史數據308中的故障歷史表406-412進行搜索,標籤指派器部件414可以標識用於化解故障症狀的先前成功的故障排除選項和調試步驟以及相應的置信度標籤。

化解標識器部件304還可以包括輸出部件416,該輸出部件416輸出故障排除選項、調試步驟和對應的標籤。在一個示例中,輸出部件416可以向由操作者126運用的計算設備124的顯示器輸出這樣的故障排除選項、調試步驟和標籤。在另一示例中,輸出部件416可以向不同計算設備傳輸故障排除選項、調試步驟和標籤。在又一示例中,輸出部件416可以使故障排除選項被自動地選擇以及調試步驟被自動地執行而無操作者介入。

除了輸出故障排除選項和調試步驟之外,輸出部件416也可以輸出(對於出故障設備或者鏈路)摘要故障歷史表以用於向操作者126呈現。這可以向操作者126提供涉及先前設備或者鏈路故障的歷史情境。例如,化解標識器可以維護用於數據中心100中的設備和/或鏈路的摘要故障歷史表,其中示例性摘要故障歷史表可以包括但不限於包括:1)設備或者鏈路的名稱;2)關於設備或者鏈路相對於其它設備或者鏈路的故障率的指示(例如,關於設備或者鏈路是否為前k個問題設備的指示);3)對設備或者鏈路做出的新近改變(例如,硬體、軟體和/或配置改變);4)自從設備或者鏈路上次出故障起的時間量;以及5)選擇的新近故障排除選項和/或執行了故障排除的操作者。

現在參照圖6,圖示了可以在由操作者126運用的計算設備124的顯示器上呈現的示例性圖形用戶界面600。圖形用戶界面600可以由化解標識器部件304生成。圖形用戶界面包括欄位602,該欄位602向操作者126呈現涉及由故障標識器部件402標識的出故障的設備或者另外讓操作者126感興趣的設備的以下信息:1)出故障的設備的名稱;2)出故障的設備的型號;3)包括出故障的設備的數據中心的身份;4)出故障的設備的性能;5)出故障的設備的類型;6)新近硬體改變和新近軟體改變;以及7)指向更具體描述這些改變的票券的連結。

圖形用戶界面600附加地包括欄位604,該欄位604例示了先前觀測到的症狀,這些症狀映射到接收到的警報(例如,警報400)的內容。如圖6中所示,示例性症狀可以包括「鏈路抖動」和「設備停用」。欄位604對於每個觀測到的症狀也包括多個潛在故障排除選項。例如,對於「設備停用」系統,在欄位604中顯示以下故障排除選項:1)「檢查線纜」;2)「檢查電源」;以及3)「檢查網卡」。故障排除選項具有向它們指派的相應的標籤,這些標籤指示相應的故障排除選項將緩解對應的故障症狀的概率。例如,向「檢查線纜」故障排除選項指派標籤,該標籤指示存在通過利用與這樣的故障排除選項對應的至少一個調試步驟對故障症狀「設備停用」進行故障排除將緩解問題的60%的概率。相似地,可以向「檢查功率供應」故障排除選項指派標籤,該標籤指示存在執行與這樣的故障排除選項對應的調試步驟將造成緩解故障症狀的25%的概率。

如查明的那樣,每個故障排除選項具有與它對應的至少一個調試步驟。例如,故障排除選項「檢查線纜」具有與它對應(並且在圖形用戶界面600中被圖示)的兩個調試步驟:1)「重裝線纜」;以及2)「清理線纜」。也可以向這些調試步驟指派標籤,這些標籤指示化解步驟將化解故障症狀的相應的概率(在選擇母故障排除選項時)。

附加地,一些調試步驟可以具有向它們指派的更多指令以輔助操作者126執行調試步驟。例如,對於「更換網卡」調試步驟,可以響應於操作者選擇圖形用戶界面600中的與前述化解步驟相鄰被定位的圖形圖標606來向操作者126呈現更多指令。這可以造成顯示彈出窗口607(或者分離的窗口),該彈出窗口(或者分離的窗口)向操作者126提供關於更換網卡的附加信息。附加信息在一個示例性實施例中可以具有向它指派的超連結,其中操作者126選擇超連結可以將操作者引向附加信息。

圖形用戶界面600還可以包括各種欄位608-612,這些欄位608-612可以包括圖形數據(例如,圖形),這些圖形數據代表出故障的設備的各種操作參數。例如,欄位608可以描繪圖形,該圖形圖示了在特定時間窗口內穿過出故障的設備的流量的數量,欄位610可以描繪圖形,該圖形代表出故障的設備在時間窗口內的可用性,並且欄位612可以描繪圖形,該圖形圖示了在觀察到出故障的設備已經出故障時的時間點。

圖形用戶界面600也可以包括促進從操作者126接收反饋的特徵。例如,可以在圖形用戶界面600中包括按鈕614,該按鈕614在被選擇時使窗口616呈現給操作者126,其中窗口126包括可以由操作者126填充的若干欄位。這允許操作者126標識在對出故障的設備進行故障排除時觀測到的症狀、由操作者126在對出故障的設備進行故障排除時運用的故障排除選項和由操作者126在對出故障的設備進行故障排除時採取的調試步驟。

圖形用戶界面600也可以包括圖形對象618,該圖形對象618代表數據中心100的部分的拓撲視圖,其中可以將在欄位602中標識的設備表示為圖形對象618中的中心圖形圖標620,並且從在欄位602中標識的設備的一個跳躍的設備可以由包圍中心圖形圖標620的圖形圖標622-634代表(例如,其中在圖形圖標之間的連接代表在它們之間的鏈路)。另外,圖形圖標620-634可以被色編碼以指示由圖形圖標620-634代表的相應的設備的類型。在另一示例中,圖形對象618中的圖形圖標620-634可以具有相應的形狀,這些形狀指示由圖形圖標代表的設備的類型。例如,被成形為方形的圖形圖標可以代表核心路由器,被成形為圓形的圖形對象可以代表VPN,等等。圖形對象618中的圖形圖標620-634可以是可選擇的,其中選擇圖形圖標使關於由圖形圖標代表的設備的信息在欄位602(和在圖形用戶界面600中的其它欄位)中被闡述。在又一示例中,圖形圖標的形狀可以代表由圖標代表的設備的類型,並且圖形圖標的顏色可以代表設備的製造商。也設想了其它變體。

現在參照圖7,圖示了事件優先級化器部件312的示例性描繪。事件優先級化器部件312可以接收由數據中心100中的設備生成的警報。事件優先級化器部件312包括警報相關器部件700,其中警報相關器部件700將警報相關成相應的組,其中組代表相應的網絡故障。在一個示例性實施例中,警報相關器部件700在接收到警報時可以在歷史數據308中執行搜索以標識可以與接收到的警報有關的新近警報。例如,警報相關器部件700可以在歷史數據308中搜尋由相同設備生成和/或用於相同接口的先前警報(例如,在某個閾值歷史時間窗口(比如最新近30分鐘)內)。在一個示例性實施例中,警報相關器部件700可以將接收到的警報與在閾值時間窗口內由相同設備生成和/或用於相同接口的其它警報分組在一起。在另一示例中,警報相關器部件700可以將接收到的警報與由網絡拓撲中的鄰近設備生成的至少一個警報分組在一起(其中警報相關器部件700通過分析網絡圖310來標識鄰近設備)。例如,警報相關器部件700可以將警報與在分級網絡拓撲中的在出故障的設備上遊或者下遊1至2個跳躍的鄰近設備上生成的、並且已經在從生成了接收到的警報的時間起的閾值時間量內生成的警報分組在一起。附加地,警報相關器部件700可以將接收到的警報與由網絡冗餘性組(具有生成了警報的設備)中的一個或者多個設備生成的可以相關的至少一個其它警報分組在一起(例如,例示故障轉移協議的問題)。可以查明一組警報可以代表單個網絡故障,並且不同組的警報可以代表不同網絡故障。

具體而言涉及警報相關器部件700的操作,對於每個接收到的警報,警報相關器部件700可以嘗試匹配警報與優先級事件或者麻煩票券(如果存在)。例如,警報相關器部件700可以對各種欄位執行匹配:1)網絡設備和/或接口名稱,設備名稱通常地被編碼為aa-bb-cc-dd,其中aa是數據中心,bb是平臺名稱,cc是主控的服務或者應用的名稱,並且dd是與生成了警報的設備的部署有關的邏輯編號;2)設備的類型;3)錯誤消息;以及4)事件通知時間。為了比較基於串的欄位(設備名稱和錯誤消息),警報相關器部件700可以使用多種串匹配算法(例如,編輯距離、Aho-Corasick模式匹配、Levenshtein距離等)。這允許匹配警報與新近以往的可能匹配(基於對通知時間設置閾值)。第二,警報相關器部件700可以基於在鄰近設備上出現的故障來執行匹配。通過基於鏈路級連通分析網絡圖310來確定鄰居。第三,警報相關器部件700可以基於網絡設備的類型來執行匹配,例如,跨相同數據中心中的負載平衡器或者跨造成大型相關故障的多個數據中心的配置漏洞。

事件優先級化器312也包括對用於故障排除的警報(故障事件)的分組進行排名的排名器部件702。排名器部件702可以被配置為對事件進行優先級化以最小化對數據中心100和/或數據中心100的客戶的負面影響。例如,排名器部件702可以基於出故障的設備接近網絡分級的最高級來對事件進行優先級化,因為這樣的設備引起相對高的服務停用風險。在另一示例中,排名器部件702可以按照可能由於設備的故障而被影響的性能的數目對事件進行優先級化。另外,單個性能的影響可以使排名器部件702向事件指派相對高的優先級。在另一示例中,排名器部件702可以基於由出故障的設備輸送的流量的數量來對事件進行優先級化。在又一示例中,排名器部件702可以基於對經過數據中心100的流量的影響對事件進行優先級化,例如,設備的故障可能引起顯著流量損失。在再一示例中,排名器部件702可以基於潛在冗餘性故障來對事件進行優先級化。例如,未被設備內或者設備間冗餘性屏蔽的故障事件可以被相對高地排名。最後,排名器部件702可以對由單支路的設備引起或者影響單支路的設備的故障事件進行優先級化。例如,涉及故障轉移何處成功但是具有引起冗餘性故障這一危險的事件可以被相對高地排名。事件優先級化器部件312的輸出因此是事件的優先級化的列表,從而使得操作者126可以對網絡故障進行優先級化以最小化它們對主控的應用和服務的影響。

圖8至圖10圖示了涉及化解網絡故障的示例性方法。儘管方法被示出和描述為在序列中被執行的一系列動作,但是將理解和認識到,方法不受序列的順序限制。例如,一些動作可以在與這裡描述的順序不同的順序中出現。附加地,一個動作可以與另一動作並行地出現。另外,在一些實例中,可以無需所有動作以實施這裡描述的方法。

另外,這裡描述的動作可以是可以由一個或者多個處理器實施和/或在一個或者多個計算機可讀介質上存儲的計算機可執行指令。計算機可執行指令可以包括例程、子例程、程序、執行的線程等。進而另外,方法的動作的結果可以被存儲在計算機可讀介質中、顯示在顯示設備上、等等。

現在參照圖8,圖示了流程圖,該流程圖圖示了用於輸出用於在對網絡故障進行故障排除時使用的多個故障排除選項的示例性方法800。方法800在802處開始,並且在804處接收到指示網絡故障的警報。警報由數據中心中的設備生成,該設備可以是計算設備或者網絡基礎設施設備。警報可以標識被認為出故障的設備、生成了警報的設備、在出故障的設備上的受影響的接口、指示何時生成了警報的時間戳以及其它數據。

在806處,響應於接收到警報,標識出故障的設備和/或出故障的鏈路。出故障的設備可以是生成了警報的設備或者與生成了警報的設備通信的設備。將理解,在出故障的設備生成警報時,它未必地意味著整個設備已經停用。實際上,警報可以指示設備的鏈路之一已經停用、設備的CPU利用率已經超過預定閾值、存儲器利用率已經超過預定閾值,等等。在808處,響應於標識出故障的設備,將在警報中指示的故障狀況映射到歷史上觀測到的故障症狀,其中可能先前已經將故障症狀觀測為由出故障的設備、由與出故障的設備有關的設備等展現。如以上指示的那樣,可以對於相應的網絡設備維護故障歷史表,這些故障歷史表促進將警報中的故障狀況映射到可能的故障症狀。

在810處,對於標識的故障症狀,標識多個故障排除選項,其中故障排除選項指示用於治療故障症狀的潛在的化解。另外,故障排除選項可以具有向它們指派的相應的標籤,這些標籤指示故障排除選項治療故障症狀的概率。標籤可以是概率或者更審慎的標籤(例如,高置信度、中置信度、低置信度等)。在812處,輸出多個故障排除選項及其相應的標籤以用於由操作者用來化解網絡故障。如以上指出的那樣,標籤可以指示故障排除選項在由操作者採用時將分別減輕網絡故障的置信度。方法800在814處完成。

現在參照圖9,圖示了促進對警報進行分組以標識網絡故障並且對網絡故障進行優先級化的示例性方法900。方法900在902處開始,並且在904處接收指示網絡故障的警報。在906處,響應於接收到警報,向資料庫發出查詢。查詢基於警報的生成時間、發出了警報的設備類型和設備在網絡的分級中的位置。在908處,響應於發出查詢,基於查詢接收結果,這些結果包括第二警報。在910處,將警報與第二警報分組在一起,並且在912處,基於警報與第二警報的分組輸出警報的排名的列表。方法900在914處完成。

現在參照圖10,圖示了用於接收關於故障排除選項和/或調試步驟的反饋並且基於反饋更新與故障排除選項和/或調試步驟對應的概率的示例性方法1000。方法1000在1002處開始,並且在1004處接收來自操作者的反饋。反饋可以標識1)出故障的網絡設備或者鏈路(例如,包括設備的類型、設備的平臺、設備在網絡拓撲中的位置等);2)故障的症狀;3)由操作者採取的用以減輕故障的故障排除選項的身份;4)故障排除選項是否成功地減輕了故障的指示;5)由操作者執行的用以減輕故障的調試步驟的身份;以及6)調試步驟是否成功地減輕了故障的指示。

在1006處,基於反饋更新描述網絡故障的歷史數據。更具體而言,可以基於接收到的反饋更新設備故障歷史表和/或鏈路故障歷史表。在1008處,在更新歷史數據之後接收警報,並且在1010處,基於警報查詢歷史數據。例如,可以在若干維度(例如,設備ID、設備類型、設備平臺、鏈路ID等)之上查詢歷史數據。在1012處,計算(例如,實時或者離線)用於故障排除選項和/或調試步驟的可以潛在地減輕由警報指示的網絡故障的概率。這樣的概率可以基於來自操作者的反饋,從而使得在接收到附加反饋時隨時間細化概率。另外,如果操作者本來應採取先前未結合設備運用的故障排除選項,則可以用可以在生成相似警報時以後揭示的這一新故障排除選項更新歷史數據和/或概率。方法1000在1014處完成。

現在參照圖11,圖示了可以根據這裡公開的系統和方法使用的示例性計算設備1100的高級圖示。例如,可以在系統中使用計算設備1100,該系統支持輸出用於治療數據中心中的故障症狀的故障排除選項和調試步驟。又舉例而言,可以在為操作者支持對網絡故障進行優先級化的系統中使用計算設備1100。計算設備1100包括執行在存儲器1104中存儲的指令的至少一個處理器1102。指令可以例如是用於實施被描述為由以上討論的一個或者多個部件執行的功能的指令或者用於實施以上描述的方法中的一種或者多種方法的指令。處理器1102可以藉助系統總線1106訪問存儲器1104。除了存儲可執行指令之外,存儲器1104也可以存儲故障歷史表、網絡圖等。

計算設備1100附加地包括藉助系統總線1106可由處理器1102訪問的數據存儲庫1108。數據存儲庫1108可以包括可執行指令、故障歷史表等。通信設備1100也包括允許外部設備與計算設備1100通信的輸入接口1110。例如,輸入接口1110可以用來從外部計算設備、從用戶等接收指令。計算設備1100也包括使計算設備1100與一個或者多個外部設備對接的輸出接口1112。例如,計算設備1100可以例如藉助輸出接口112輸出文本、圖像等。

設想了可以在提供用戶可以與之交互的基本上任何類型的用戶接口的環境中包括經由輸入接口1110和輸出接口1112與計算設備1100通信的外部設備。用戶接口類型的示例包括圖形用戶界面、自然用戶接口等等。例如,圖形用戶界面可以接受來自運用輸入設備(比如鍵盤、滑鼠、遙控等)的用戶的輸入並且在輸出設備(比如顯示器)上提供輸出。另外,自然用戶接口可以讓用戶能夠以不受輸入設備(比如鍵盤、滑鼠、遙控等)強加的約束的方式與計算設備1100交互。實際上,自然用戶接口可以依賴於話音識別、觸摸和觸筆識別、在屏幕上和與屏幕相鄰二者的手勢識別、空中手勢、頭和眼跟蹤、語音和話音、視覺、觸摸、手勢、機器智能等等。

附加地,儘管被圖示為單個系統,但是將理解,計算設備1100可以是分布式系統。因此,例如,若干設備可以藉助網絡連接來通信並且可以共同地執行被描述為由計算設備1100執行的任務。

可以在硬體、軟體或者其任何組合中實施這裡描述的各種功能。如果在軟體中實施,則功能可以被存儲在計算機可讀介質上或者作為一個或者多個指令或者代碼通過計算機可讀介質而被傳輸。計算機可讀介質可以是可以由計算機訪問的任何可用存儲介質。舉例而言而非限制,這樣的計算機可讀存儲介質可以包括RAM、ROM、EEPROM、CD-ROM或者其它光碟存儲裝置、磁碟存儲裝置或者其它磁存儲設備或者可以用來以指令或者數據結構的形式輸送或者存儲希望的程序代碼並且可以由計算機訪問的任何其它介質。磁碟和光碟如這裡所用包括緊緻盤(CD)、雷射盤、光碟、數字萬用盤(DVD)、軟盤和藍光碟(BD),其中磁碟通常地磁再現數據而光碟通常用雷射器光再現數據。另外,在計算機可讀存儲介質的範圍內未包括傳播的信號。計算機可讀介質也包括通信介質,這些通信介質包括促進從一個地方向另一地方傳送電腦程式的任何介質。連接例如可以是通信介質。例如,如果使用同軸線纜、光纖線纜、雙絞線、數字用戶線(DSL)或者無線技術(比如紅外線、無線電和微波)從網站、伺服器或者其它遠程源傳輸軟體,則在通信介質的定義中包括同軸線纜、光纖線纜、雙絞線、DSL或者無線技術(比如紅外線、無線電和微波)。也應當在計算機可讀介質的範圍內包括以上示例的組合。

備選地或者附加地,這裡描述的功能可以至少部分由一個或者多個硬體邏輯部件執行。例如,而無限制,可以使用的硬體邏輯部件的示例類型包括現場可編程門陣列(FPGA)、專用集成電路(ASIC)、專用標準產品(ASSP)、片上系統(SOC)、複雜可編程邏輯器件(CPLD)等。

以上已經描述的內容包括一個或者多個實施例的示例。當然,不可能為了描述前述方面而描述以上設備或者方法的每個可設想的修改和變更,但是本領域普通技術人員可以認識到,各種方面的許多進一步修改和排列組合是可能的。因而,描述的方面旨在於涵蓋落入所附權利要求的精神實質和範圍內的所有這樣的變更、修改和變化。另外,在具體實施方式或者權利要求中使用術語「包括」的程度上,這樣的措詞旨在於以與措詞「包括」在權利要求中用作過渡詞時解釋「包括」的方式相似的方式有包含意義。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀