用於遠程數據收集管理的方法和分布式計算系統的製作方法
2023-06-20 22:20:06
專利名稱:用於遠程數據收集管理的方法和分布式計算系統的製作方法
技術領域:
本發明涉及分布式計算環境,更具體地說,涉及在分布式計算環境/系統中管理遠程數據收集。
背景技術:
當前的計算環境通常使用多個分布式計算系統。圖1示出典型的分布式計算系統的框圖,其中管理伺服器100,例如IBM eServer型號x205,通過網絡110(例如WAN、LAN、網際網路等)連接到多個被管理的計算機系統120,例如IBM eServer xSeries和BladeCenter伺服器。在這些環境中存在的一個挑戰是檢測系統故障,防止停機,並隔離故障組件從而能夠更新或者更換它們。解決這些問題的努力已經產生幾個問題判定工具,它們解決系統中特定種類的問題。每個工具執行問題判定活動來解決開發它所針對的特定領域。因此,為了診斷整個系統,需要多種這些工具,因為每種工具給問題判定難題提供一些重要信息。當已經收集到來自每個工具的信息時,必須把這些結果關聯起來以全面地考查和預測系統故障。
在當前環境中,系統管理員負責選擇要啟動的適當工具,必要時安裝這些工具,將來自各工具的信息關聯起來,並分析結果來防止或解決問題。經常需要去到系統現場來執行這些活動。這種對系統管理員的依賴是費時的,並且由於在有關對可用工具、工具更新、和每個工具所返回數據的類型和格式的認識的維護方面的知識和經驗的不同也容易發生錯誤。
隨著需要以這樣一種方式在位於遠程的系統上發現、安裝、更新和啟動問題判定工具,該方式允許在中央位置關聯和分析這些工具的結果,從而預測即將發生的故障並生成對現存故障的解決方案,而面臨另一挑戰。當需要在分布式系統中定期執行某過程或者代碼塊(例如任務列表130中的任務)例如問題判定代碼時,已知允許管理伺服器100跟蹤時間並允許以規則的間隔把信息發送給每個分布式系統中。然而,隨著被管理系統120數量的增多,這種方法變得受局限,因為需要時間來把特定執行通知給每個系統並需要使所有系統連接到管理伺服器100上以接收命令。
因此,需要一種在分布式計算環境中遠程管理數據收集的方法,包括提供用於分布式計算環境中的問題判定工具的數據的遠程管理的定期執行和分布式問題判定。本發明試圖滿足這種需要。
發明內容
描述了具有遠程數據收集管理的分布式計算環境的方面。這些方面包括管理伺服器,和多個網絡連接到該管理伺服器上並由該管理伺服器管理的計算機系統。所述多個計算機系統中的每個都包括一偵聽代理,該偵聽代理從管理伺服器接收過程代碼(process code)並控制該過程代碼的定期執行以從所述多個計算機系統收集數據。無需在多個計算機系統和管理伺服器之間保持連接就能發生定期執行。另外,所收集的數據包括從問題判定活動所收集的數據。
通過本發明,利用被管理系統中的偵聽代理實現了在分布式計算環境中的被管理系統中定期執行塊代碼(block code)的某種過程。實現定期執行的能力支持用於分布式數據收集和分析的服務方法,從而增強分布式計算環境中的問題判定活動。這使得可以高效和普通的方式最大程度地利用該系統可用的問題判定工具。結合下面的詳細說明和附圖,本發明這些方面的這些和其他優點將會得到更充分的理解。
圖1示出一個典型的分布式計算環境的框圖。
圖2示出一個根據發明的分布式計算環境的框圖。
圖3示出一個根據本發明的用於問題判定工具和數據的遠程管理的分布式問題判定流程圖。
具體實施例方式
本發明涉及在分布式計算環境中遠程管理數據收集。提供了下面的說明書以使本領域的普通技術人員可以實現和利用本發明,並且是在專利申請及其要求的上下文中提供的該說明。本領域的技術人員將容易想到這裡所描述的最佳實施例以及基本原理和特徵的各種變化。因此,本發明並非旨在局限於示出的實施例,而是被給予與這裡所述的基本原理和特徵相一致的最大範圍。
根據本發明,如圖2所示,圖1的分布式系統被修改以在被管理系統120』中包括一常駐偵聽代理200。常駐偵聽代理200例如作為用適當程式語言編寫的軟體過程被提供,並被存儲在計算機可讀介質中,並且通過從管理伺服器100獲取命令來配置某過程或者代碼塊的適當的定期執行,而在每個分布式系統上執行。然後常駐偵聽代理200負責該過程或代碼塊的定期執行。接著偵聽代理200可以與管理系統100斷開連接並仍執行必要的定期動作來收集數據。
例如,下面描述了在管理伺服器100和偵聽代理200之間的命令集,其用於通過偵聽代理200在遠程系統中實現定期執行Connect主機名或IP號(即網際協以號)與給定主機建立通信並設置響應地址。
Disconnect斷開與所連接管理系統的基於套接字的通信。
Transport通知被管理的系統發送所收集的結果。
SetPeriodDATA_COLLECTION_CLASS
TIMEBETWEENSAMPLESINSECONDS管理伺服器100指示偵聽代理200計劃安排由DATA_COLLECTION_CLASS定義的能夠收集數據的組件每TIMEBETWEENSAMPLESINSECONDS執行。偵聽代理200使用本地時間來計劃安排執行,並且現在可與管理伺服器100斷開連接。
GetPeriod獲取由SetPeriod設置的周期。
如參照在圖3中示出的流程圖所述的那樣,以這種方式進行定期執行的能力為分布式問題判定系統根據本發明對問題判定工具和數據進行遠程管理提供了支持。參照圖3,當生成對於問題判定數據的請求時,開始遠程管理,所述請求如所允許的那樣由客戶或者外部服務中心啟動,並由分布式計算環境中的目標系統接收,例如通過偵聽代理接收(步驟300)。然後發現在該目標系統上所安裝的問題判定工具(步驟310)。選擇並配置所發現的與所請求的數據有關的工具(步驟320)。在目標系統中隨需或者為了定期執行安裝附加的工具(步驟330),並且問題判定工具的任何更新由管理系統遠程完成。
隨著選擇和配置這些問題判定工具,在目標系統中啟動這些工具並收集問題判定結果(步驟350)。開始把所有收集到的數據相關聯(步驟360),並把所關聯的數據傳送到一遠程系統中以進行結果的本地存儲(步驟370)。卸載隨需安裝的任何問題判定工具(步驟380)。所存儲的結果例如被傳送到服務中心以便分析(步驟390)。根據所述結果,生成系統配置歷史,其中列出所檢測和預測的故障,並創建行動計劃(步驟400)。解決方案的應用通過硬體和軟體部署或者現場服務調用來發生(步驟410)。
作為在分布式計算環境中這些步驟如何進行的示例,使管理系統能夠從目標系統請求技性能數據。目標系統接收請求並接著發現所安裝的提供系統性能信息的應用軟體。目標系統繼續根據預設或者生成的規則集來配置所安裝的工具。將來自每個工具的數據在目標系統上相關聯並接著將其傳輸到遠程系統以進行進一步的分析。如果探測到性能問題,則將來自目標系統的相關聯數據傳送到一外部服務實體來判定硬體和軟體配置錯誤或者生成解決該問題的行動計劃。服務機構可以生成該過程中使用的某些問題判定工具,並能夠判定遠程系統上工具的等級以及以定期的方式或者隨需部署更新和附加的工具。
通過本發明,利用被管理系統中的偵聽代理,實現了分布式計算環境中的被管理系統中塊代碼的某過程的定期執行。實現該定期執行的能力支持一種用於分布式數據收集和分析以增強分布式計算環境中的問題判定活動的服務方法。這允許以高效和普通的方式最大程度地利用該系統可用的問題判定工具。所產生的系統能夠自動地判定應當執行哪些工具來幫助判定特定問題,並提供了當對數據進行歸類(通常為格式化數據)和分析所收集的數據時,在系統的網絡中部署、更新和卸載該問題判定工具。
儘管根據示出的實施例描述了本發明,但是本領域普通技術人員將容易知道這些實施例可以有變化,並且這些變化將在本發明的精神和範圍內。因此,本領域普通技術人員可以做出許多修改,而不脫離隨後的權利要求的精神和範圍。
權利要求
1.一種用於在分布式計算系統中遠程管理數據收集的方法,該方法包括在多個計算機系統中的每一個中提供偵聽代理,以接收來自網絡連接到所述多個計算機系統的管理伺服器的過程代碼;以及利用所述偵聽代理控制所述過程代碼的定期執行,以從所述多個計算機系統收集數據,其中發生所述定期執行而無需在所述多個計算機系統和所述管理伺服器之間維持連接。
2.如權利要求1所述的方法,其中所述收集的數據還包括從問題判定活動收集到的數據。
3.如權利要求2所述的方法,其中所述問題判定活動還包括至少在一個計算機系統中接收對於問題判定數據的請求。
4.如權利要求3所述的方法,還包括在所述至少一個計算機系統中發現所安裝的問題判定工具,並選擇與所述請求相關的一個或者多個所安裝的問題判定工具。
5.如權利要求4所述的方法,還包括安裝任何需要的附加工具並根據需要遠程更新所選擇的一個或者多個所安裝的問題判定工具。
6.如權利要求5所述的方法,還包括根據規則集配置所選擇的問題判定工具並將來自所選擇的問題判定工具的數據相關聯。
7.如權利要求6所述的方法,還包括將所述相關聯的數據傳送到遠程系統。
8.如權利要求7所述的方法,還包括利用所傳送的數據來進行分析並創建行動計劃。
9.如權利要求8所述的方法,其中通過硬體和軟體部署來應用所述行動計劃。
10.一種具有遠程數據收集管理的分布式計算系統,該系統包括管理伺服器;以及多個計算機系統,其網絡連接到所述管理伺服器上並由所述管理伺服器管理,所述多個計算機系統中的每一個包括偵聽代理,其用來接收來自管理伺服器的過程代碼並控制所述過程代碼的定期執行以從所述多個計算機系統收集數據,其中發生所述定期執行而無需在所述多個計算機系統和所述管理伺服器之間維持連接。
11.如權利要求10所述的系統,其中所述收集的數據還包括從問題判定活動收集到的數據。
12.如權利要求11所述的系統,其中所述問題判定活動還包括至少在一個計算機系統中接收對於問題判定數據的請求。
13.如權利要求12所述的系統,其中所述至少一個計算機系統還發現安裝在所述至少一個計算機系統中的問題判定工具,並選擇與所述請求相關的一個或者多個所安裝的問題判定工具。
14.如權利要求13所述的系統,其中所述管理伺服器還安裝任何需要的附加工具並根據需要遠程更新所選擇的一個或者多個所安裝的問題判定工具。
15.如權利要求14所述的系統,其中所述至少一個計算機系統還根據規則集配置所選擇的問題判定工具並將來自所選擇的問題判定工具的數據相關聯。
16.如權利要求15所述的系統,其中所述至少一個計算機系統還把所述相關聯的數據傳送到遠程系統。
17.如權利要求16所述的系統,其中所述遠程系統還利用所傳送的數據來進行分析並創建行動計劃。
18.如權利要求17所述的系統,其中所述遠程系統通過在所述至少一個計算機系統中進行硬體和軟體部署來應用所述行動計劃。
19.一種計算機可讀介質,包含用於以下功能的程序指令在多個計算機系統中的每一個中的偵聽代理,其用來接收來自網絡連接到所述多個計算機系統的管理伺服器的過程代碼並控制所述過程代碼的定期執行來從所述多個計算機系統收集數據,其中發生所述定期執行而無需在所述多個計算機系統和所述管理伺服器之間維持連接。
20.如權利要求19所述的計算機可讀介質,其中所述收集的數據還包括從問題判定活動收集到的數據。
全文摘要
帶有遠程數據收集管理的分布式計算系統的方面包括一管理伺服器,和多個網絡連接到該管理伺服器上並由該管理伺服器管理的計算機系統。該多個計算機系統中的每一個包括一偵聽代理,其用來接收來自管理伺服器的過程代碼並控制該過程代碼的定期執行來從所述多個計算機系統收集數據。發生所述定期執行而無需在所述多個計算機系統和所述管理伺服器之間維持連接。另外,所述收集的數據還包括從問題判定活動收集到的數據。
文檔編號H04L12/24GK1878091SQ20061008509
公開日2006年12月13日 申請日期2006年5月31日 優先權日2005年6月2日
發明者F·A·鮑爾三世, T·D·法達勒, R·E·哈珀, K·K·沙阿, R·H·布朗, T·J·福科斯, D·B·羅伯茨, C·A·施賴伯 申請人:國際商業機器公司