新四季網

使用關聯圖和運行時行為模型確定問題的系統和方法

2023-06-01 19:47:36

專利名稱:使用關聯圖和運行時行為模型確定問題的系統和方法
技術領域:
一般說來,本發明涉及在分布式信息技術(IT)大環境中進行問題確定的系統和方法,更確切地說,涉及具有一組算法和過程的系統,它們分析系統關聯圖、設置可接受的操作限度,以及產生可能故障資源的優先序列,由系統管理員調查問題時使用。
背景技術:
分布式信息技術(IT)大環境的實例是多層電子商務系統,支持它的基礎設施包括由區域網和廣域網連接的以下子系統基於網絡的演示服務、存取服務、應用商務邏輯、消息服務、資料庫服務以及存儲子系統。對此類系統管理員的主要挑戰之一是當在用戶端發現問題時精確地確定問題根源。例如,如果用戶交易的響應慢得無法忍受,所述管理員就需要查明原因,它們可能位於所述系統內部的任何位置。

發明內容
對本文闡述問題的先前解決方案具有無數缺點。確定所述問題根源的現有解決方案的緩慢和勞動密集有目共睹。對問題的公知解決方案主要基於事件的相關性。系統內部的每個部件都按所述部件的每種測量的性能度量配置了閾值限度。(為了本發明的目的,可交替地使用資源、系統資源、計算資源等術語與部件或系統部件等術語。)如果度量超過其對應的閾值,則向中心相關性引擎(CE)發送事件。所述CE對到來的事件應用一組預先配置的專家相關性規則,以確定問題根源。由於管理人員難以配置每個部件和每種度量閾值,在這樣的系統中典型情況下會產生幾種不必要的事件,對所述CE產生壓力。這種技術已經用於小型系統中,其中資源數目為數百。在資源數目可達數千和數萬的大型客戶環境中,產生的事件數目經常多得使所述系統無法進行分析,而將由所述系統管理員調查的部件數目可能相當高。這就導致了識別問題根源時的耽擱代價,進而導致昂貴的問題確定和補救過程。
本發明的一個示範方面是通過對內部部件自動和動態地設置適當的閾值而處理可擴縮性問題,從而減少事件數目以及由管理人員或任何問題確定(PD)程序調查的部件數目。
本發明的另一個示範方面是使用關聯圖根據用戶級服務水平協議(SLA)對組成典型分布式IT系統的各個部件自動計算運行限度。
本發明的再一個示範方面是使用運行限度和關聯圖,對引起問題根源的可疑系統部件進行排序,使得系統管理員或問題確定程序能夠以優先順序進一步調查每個部件,並且在所述排序的列表中儘早地發現問題根源。
所以,介紹了問題確定系統和方法,它使各個部件上的閾值分配自動且緊密,所以不產生虛假事件,不調查極不可能是問題根源的部件。本發明的一個示範方面減少了受調查的部件數目,因此減少了確定問題所需的時間。
例如,考慮實施電子鋪面的交易處理系統。每筆用戶交易都能夠由關聯圖表示,它描繪了各種IT資源如何執行所述交易。此類關聯圖能夠使用各種插入和非插入方式提取。本發明的示範實施例提供了一種計算機化的系統,它具有若干算法和計算機實施的過程,它們能夠根據某些受監控的度量比如響應時間,計算關聯圖中每項資源可接受的運行閾值。因此,如果交易出現了問題,比如響應時間緩慢得無法忍受,本發明將首先掃描所述交易的關聯圖,以便確定一組資源,它們可能是所述問題的根源。下一步,本發明將把這些資源中每一項的當前行為與由本發明計算的閾值對比。已經運行在超出這些閾值的資源將被標記為疑點。如果所述交易系統僅含有一項資源,那麼它就是問題根源。如果本發明識別了含有不止一項資源的一組疑點,那麼根據分選算法對該組中的資源進行排序以產生有序組,所以系統管理員或PD程序能夠依次分別調查所述部件,以識別問題根源。
使用這種解決方案的重要優點是比當前的系統減少了進行根源分析所需的時間。這是因為使用與行為閾值(或限度)耦合的關聯信息顯著減少了管理員為了可能的故障而需要檢查的資源數目。診斷時間的這種減少帶來了運行成本的節省。進一步的優點是本發明的問題確定系統和方法比現有的解決方案可伸縮性更大。
附圖簡要說明參考附圖根據本發明優選實施例的以下詳細說明將會更好地理解以上的和其他的目的、方面和優點,其中

圖1是是問題確定系統的框圖;圖2是問題確定系統的行為模擬器部件的圖示;圖3是關聯圖的實例;圖4顯示了使用限度算法(算法1(201))和關聯圖的實例分選過程。
具體實施例方式
現在參考附圖,更具體地說是圖1,其中顯示了問題確定(PD)系統的示意圖。分布式交易系統100包括分布式交易網絡101和若干系統資源111。系統資源111顯示在圖1中包括但是不限於數據機、處理器和工作站,但是也可以包括許多其他類型的典型IT資源(如HTTP伺服器、負載平衡器、應用程式伺服器、資料庫伺服器、高速緩存、存儲器、傳輸系統等等)。通過分布式交易網絡101從分布式交易系統100向服務水平協議(SLA)監視器108和本發明的監控系統102提供監控數據。監控系統102定期輪詢分布式交易系統100中的每項資源,以獲得對所述資源已經定義的度量值。對給定資源測量的若干特定度量是設計參數,典型情況下由系統管理員根據試運行、經驗等來選擇。通過標準的協議向監控系統102傳遞從分布式交易系統100輪詢的測量信息。靜態關聯圖103包含靜態關聯信息,它把所述系統中的資源類型聯繫到每種其他類型,並用作動態關聯發生器104的起始點。動態關聯發生器104使用來自監控系統102和/或靜態關聯圖103的輪詢測量數據,計算若干資源之間的動態關聯關係。
圖3顯示了交易T1和T2為用戶交易的實例。交易T1需要的服務來自由父節點310所示的小服務程序S1以及分別由子節點311和子節點312所示的SQL語句Q1和Q2。而交易T2需要的服務來自由父節點320所示的小服務程序S2以及分別由子節點312和子節點321所示的SQL語句Q2和Q3。
返回圖1,由動態關聯發生器104產生的動態關聯圖存儲在動態關聯資料庫105中。行為模擬器106根據來自監控系統102和動態關聯資料庫105的監控信息,為每項資源計算閾值限度。資源行為限度資料庫107存儲著由行為模擬器106算出的資源限度,以及動態關聯資料庫105中識別的每項資源的當前嚴重程度值。
SLA監視器108對分布式交易系統100中每筆用戶交易測量性能。SLA監視器108對每筆交易實例測量響應時間,如果交易類型持續地違反SLA閾值,則向問題確定模塊發送警報事件。如果SLA監視器108檢測出某交易類型違反SLA,那麼該交易類型就被視為「差」狀態,並向問題確定模塊109發送指示符。否則,該交易的狀態被視為「好」。在行為模擬器106中每筆用戶交易的狀態都持續地更新。
問題確定模塊109實施問題確定算法。當問題確定模塊109從SLA監視器108收到警報時(如某交易的「差」狀態),問題確定模塊109就從動態關聯資料庫105中檢索關聯圖,並使用資源行為限度資料庫107為每項資源計算嚴重程度值。
現在看圖2,行為模擬器106從動態關聯資料庫105接收監控數據203、好或差狀態204和關聯圖(如靜態的和動態的)。使用幾種可用的算法之一,計算與資源有關的每種受監控之度量的限度。以資源標識符為索引存儲閾值限度205。這種限度強調了檢測潛在問題的閾值。換言之,如果在運行期間受監控度量的數值高於限度,那麼所述資源就可以被視為用戶交易經歷之終端對終端問題的疑點。監控數據的質量(即總計或每筆交易)影響在每項資源處閾值的調整潛力(如分別為每項資源處一個閾值或每種交易類型一個閾值)。行為模擬器106顯示為具有兩種可用的算法。不過,本領域的技術人員應當理解,可以增加眾多的算法,本發明不限於僅僅是本文呈現的這兩種。
使用算法1,在圖2中標識為201,資源的平均響應時間用於計算運行限度。這種響應時間是累積的,並且包括所述資源調用的其他資源的響應時間。某個部件對其正常運行限度的違反程度稱為嚴重程度值,計算後對部件進行分選。以算法1計算資源限度的步驟為1.對資源i讀取響應時間RT;2.查圖產生S,依賴資源i之交易的組;3.如果S的任何元素處於「差」狀態bad_avg(i)=bad_avg(i)+(1-)RT;bad_N(i)=bad_N(i)+1;否則good_avg(i)=good_avg(i)+(1-)RT;4.如果(bad_N(i)>)]]>計算severity(i)=bad_avg(i)/good_avg(i);5.診斷了問題後復位bad_N(i)=bad_avg(i)=severity(i)=0.
使用算法2,估計在某項資源處若干交易局部花費的時間,並且用於計算所述資源的上方運行閾值。為了分選資源,指定為疑點,算法2計算嚴重程度值。使用算法2建立資源限度(其中T表示全部交易或個別交易類型)的步驟為1.在關聯圖中對資源i及其子資源k=l,…,M,讀取總計(或每筆交易)的當前平均響應時間RT;2.計算由T在資源i處花費的當前平均局部時間TLocal_i(N)=RTi(N)-k=1M#Occurrencesk#OccurrencesiRTk(N)]]>其中N為系統中HTTP請求的數目,#Occurrencesi為在視為平均響應時間的時間段期間資源i出現的次數,#Oeeurreneesk為資源i調用的資源k出現的次數;3.如果尚未計算ThresholdT_i而且沒有與依賴資源i的交易有關的SLA違反a.計算終端對終端交易平均響應時間的TLocal分數Pi=TLocal_i(N)/RTT_end-to-end(N)b.對交易T穿越之資源i計算TLocal閾值ThresholdT_i=SLA*avg(Pi)4.否則,如果已經有了與依賴資源i的交易有關的SLA違反if(TLocal_i(t)>ThresholdT_i)#violations=#violations+1if violations>ncompute severity(i)=TLocal_i/ThresholdT_i;else severity(i)=0.
算法1中考慮的度量(即某資源的響應時間)是累積型度量,因為它包括子資源的響應時間。累積時間是在關聯圖中快速識別故障路徑的直接有效方式,但是在許多情況下卻不適於在問題確定中無須附加步驟時查明問題根源資源。算法2捕捉在某資源處局部花費的時間,它不是累積型度量,因為它排除了子部件的響應時間。考慮到複雜性和效率,根據系統需求而選擇將要使用的算法。
圖1中的問題確定模塊109使用由行為模擬器106算出的嚴重程度值,對受影響子圖中的全部節點進行分選。帶有嚴重程度值0(即沒有在關聯圖中處於「差」狀態下的任何用戶交易中)的節點不再進一步考慮。
圖4表示根源節點的父輩可能具有比子根源節點更高的嚴重程度值時如果使用算法1的分選。為了解決這個問題,問題確定模塊109將應用2分聚類,把節點劃分為高嚴重程度和低嚴重程度組。如果A和B為兩項資源且A和B都在高嚴重程度組中,而且A的級別高於B,那麼交換A和B的級別。列表的頂部是最可能的根源。因此,在圖4中,父節點430和子節點沒有在關聯圖中處於「差」狀態下的任何用戶交易中,不再進一步考慮。然後根據可疑節點的嚴重程度值產生優先順序列表,並按以下次序顯示
嚴重程度值120.3的父節點410嚴重程度值105.2的子節點412嚴重程度值104.2的父節點420嚴重程度值1.1的子節點411嚴重程度值1.0的子節點421然後應用父子節點關係的規則,它使最終優先順序列表中子節點412的級別高於父節點411。
根源組110的這個優先順序列表提供為圖1所示的向系統管理員的報告。
雖然已經按照其優選實施例介紹了本發明,但是本領域的技術人員將會理解,本發明能夠在附帶的權利要求書的實質和範圍之內以修改的方式實施。
權利要求
1.一種在分布式交易系統內進行問題確定的計算機實施的方法,包括以下步驟對分布式交易系統中的一組資源計算運行限度;相對所述運行限度確定所述資源的差性能狀態;產生可能導致所述差性能狀態的根源部件的列表;對所述根源部件的列表排列優先順序;以及向系統管理員提供所述排列了優先順序的根源部件的列表。
2.根據權利要求1的在分布式交易系統內進行問題確定的計算機實施的方法,其特徵在於,對分布式交易系統中的一組資源計算運行限度的所述步驟進一步包括以下步驟從所述分布式交易系統捕捉監控信息;根據用戶級SLA計算各個部件級別的閾值;以及產生動態關聯數據和所述監控信息。
3.根據權利要求1的在分布式交易系統內進行問題確定的計算機實施的方法,其特徵在於,相對所述運行限度確定所述資源的差性能狀態的所述步驟進一步包括以下步驟獲取相對於交易性能的監控信息;從所述分布式交易系統中的所述一組資源中識別用於進行所述交易的資源的子組;對所述資源的子組中的每項資源獲取性能信息;以及對比所述監控信息和所述性能信息,對性能狀態作出判斷。
4.根據權利要求1的在分布式交易系統內進行問題確定的計算機實施的方法,其特徵在於,產生可能導致所述差性能狀態的根源部件的列表的所述步驟進一步包括以下步驟選擇幾種算法之一以為每個所述部件計算嚴重程度值;以及根據嚴重程度值創建所述組根源部件的優先順序列表。
5.根據權利要求1的在分布式交易系統內進行問題確定的計算機實施的方法,其特徵在於,對所述根源部件的列表排列優先順序的所述步驟進一步包括以下步驟把排序內的所述資源識別為父資源或子資源;以及修改相對於父排序或子排序的所述優先順序。
6.根據權利要求1的在分布式交易系統內進行問題確定的計算機實施的方法,其特徵在於,向系統管理員提供所述排列了優先順序的根源部件的列表的所述步驟進一步包括以下步驟從系統管理員接收格式偏愛;按所述系統管理員的請求格式化所述排列了優先順序的根源部件的列表;以及向所述系統管理員傳送所述格式化後的排列了優先順序的根源部件的列表。
7.一種在計算機可讀介質中實施的問題確定系統,包括用於對分布式交易系統中的一組資源計算運行限度所用的裝置;用於相對所述運行限度確定所述資源的差性能狀態所用的裝置;用於產生可能導致所述差性能狀態的根源部件組所用的裝置;用於對所述根源部件組排列優先順序所用的裝置;以及用於向系統管理員提供所述排列了優先順序的根源部件組所用的裝置。
8.根據權利要求7的問題確定系統,其特徵在於,所述用於計算運行限度所用的裝置包括用於從所述分布式交易系統捕捉監控信息所用的裝置;用於根據用戶級SLA自動計算各個部件級別閾值所用的裝置;以及用於使用靜態關聯數據以及所述監控信息對所述分布式交易系統產生動態關聯信息所用的裝置。
9.根據權利要求7的問題確定系統,其特徵在於,相對所述運行限度確定所述資源的差性能狀態所用的裝置包括用於獲取相對於交易性能的監控信息所用的裝置;用於從所述分布式交易系統中的所述一組資源中識別用於進行所述交易的資源的子組的裝置;用於對所述資源的子組中的每項資源獲取性能信息所用的裝置;以及用於對比所述監控信息和所述性能信息,對性能狀態作出判斷所用的裝置。
10.根據權利要求7的問題確定系統,其特徵在於,用於產生可能導致所述差性能狀態的根源部件組所用的裝置包括用於選擇幾種算法之一以為每個所述部件計算嚴重程度值的裝置;以及用於根據嚴重程度值創建所述組根源部件的優先順序列表的裝置。
11.根據權利要求7的問題確定系統,其特徵在於,用於產生可能導致所述差性能狀態的根源部件組所用的裝置包括用於選擇幾種算法之一以為每個所述部件計算嚴重程度值的裝置;以及用於根據嚴重程度值創建所述組根源部件的優先順序列表的裝置。
12.根據權利要求7的問題確定系統,其特徵在於,用於對所述根源部件組排列優先順序的裝置包括用於把排序內的所述資源識別為父資源或子資源的裝置;以及用於修改相對於父排序或子排序的所述優先順序的裝置。
13.根據權利要求7的問題確定系統,其特徵在於,向系統管理員提供所述排列了優先順序的根源部件組的裝置包括用於從系統管理員接收格式偏愛的裝置;用於按所述系統管理員的請求格式化所述排列了優先順序的根源部件的列表的裝置;以及用於向所述系統管理員傳送所述格式化後的排列了優先順序的根源部件的列表的裝置。
14.一種自動進行問題確定的分布式交易系統,包括一組資源,被配置為分布式交易系統;用於對分布式交易系統中的一組資源計算運行限度的裝置;用於相對所述運行限度確定所述資源的差性能狀態的裝置;用於產生可能導致所述差性能狀態的根源部件組的裝置;用於對所述根源部件組排列優先順序的裝置;以及用於向系統管理員提供所述排列了優先順序的根源部件組的裝置。
15.根據權利要求14的分布式交易系統,其特徵在於,所述計算運行限度的裝置包括用於從所述分布式交易系統捕捉監控信息的裝置;用於根據用戶級SLA自動計算各個部件級別閾值的裝置;以及用於使用靜態關聯數據以及所述監控信息對所述分布式交易系統產生動態關聯信息的裝置。
16.根據權利要求14的分布式交易系統,其特徵在於,相對所述運行限度確定所述資源的差性能狀態所用的裝置包括用於獲取相對於交易性能的監控信息的裝置;用於從所述分布式交易系統中的所述一組資源中識別用於進行所述交易的資源的子組的裝置;用於對所述資源的子組中的每項資源獲取性能信息的裝置;以及用於對比所述監控信息和所述性能信息,以對性能狀態作出判斷的裝置。
17.根據權利要求14的分布式交易系統,其特徵在於,用於產生可能導致所述差性能狀態的根源部件組的裝置包括用於選擇幾種算法之一以為每個所述資源計算嚴重程度值的裝置;以及用於根據嚴重程度值創建所述組根源部件的優先順序列表的裝置。
18.根據權利要求14的分布式交易系統,其特徵在於,用於產生可能導致所述差性能狀態的根源部件組的裝置包括用於選擇幾種算法之一以為每個所述資源計算嚴重程度值的裝置;以及用於根據嚴重程度值創建所述組根源部件的優先順序列表的裝置。
19.根據權利要求14的分布式交易系統,其特徵在於,對所述根源部件組排列優先順序的裝置包括把排序內的所述資源識別為父資源或子資源所用的裝置;以及修改相對於父排序或子排序的所述優先順序所用的裝置。
20.根據權利要求14的分布式交易系統,其特徵在於,向系統管理員提供所述排列了優先順序的根源部件組所用的裝置包括用於從系統管理員接收格式偏愛的裝置;用於按所述系統管理員的請求格式化所述排列了優先順序的根源部件的列表的裝置;以及用於向所述系統管理員傳送所述格式化後的排列了優先順序的根源部件的列表的裝置。
全文摘要
一種問題確定系統和方法通過監控系統部件性能和根據系統的關聯圖計算運行性能閾值限度,減少了在大型分布式IT環境中系統管理員對交易處理困難進行故障預測所需的時間和工作量。使用這種數據,產生IT系統中可疑部件的優先順序列表。
文檔編號G06Q30/00GK1763778SQ200510099980
公開日2006年4月26日 申請日期2005年9月12日 優先權日2004年10月21日
發明者瑪諾吉·K.·阿加瓦爾, 克倫·阿普爾拜, 瑪尼施·古普塔, 高塔姆·卡爾, 阿尼達雅·尼奧吉, 安卡·賽勒 申請人:國際商業機器公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀