用於自動識別最優屬性組的方法和系統的製作方法
2023-06-20 05:08:51
專利名稱:用於自動識別最優屬性組的方法和系統的製作方法
技術領域:
圖5是包括在
圖1的系統中並實現圖2和圖3的過程的計 算系統的框圖。
具體實施方式
綜述
0012提供了 一種收集分析與聯網系統的配置相關的問題(例 如,存儲區域網絡問題)和自動產生用於配置聯網系統的最佳實踐所 需要的全部數據的系統性方式。在這裡公開的技術通過對實體類型使 用基於信息增益的分級和使用提供有效降維的分類方法來自動產生 實體、屬性、和關聯的最優組。使用該最優組來產生最佳實踐。本發 明不使用其中在開始分類過程之前將全部實體和關聯都加入到行和 列構成的巨大矩形結果集合中的效率低和耗時的蠻幹法(brute force approach),而是根據信息增益度量來遞增地添加實體。通過利用邊 緣來覆蓋曲線圖的最優部分,可將該方法和從節點生長的圖相比較。 該圖的最優部分隨後能夠用於分類以產生最佳實踐。基於實驗,本發 明的算法示出了能夠僅使用實體和關聯的30%來產生最佳實踐。
9最優實體屬性組識別系統雖然在這裡已經為了說明的目的描述了本發明的實施例, 但是許多修改和變更對於本領域技術人員是顯而易見的。因此,所附 的權利要求意圖覆蓋落入本發明的真正精神和範圍內的所有這些修 改和變更。
權利要求
1.一種用於自動識別實體的最優屬性組以有助於產生用於配置聯網系統的最佳實踐的計算機實現的方法,所述方法包括由計算系統基於多個信息增益值對包括在所述聯網系統中的多個實體的多個實體類型進行分級;由所述計算系統在所述分級之後確定關於第一實體類型的第一分類準確度,其中所述第一實體類型是基於所述分級的所述多個實體類型的最高等級的實體類型或者是與所述多個實體類型的兩個或多個實體類型相關聯的第一聚合實體類型;由所述計算系統在所述確定所述第一測量之後,選擇所述多個實體類型的第二實體類型,其中所述選擇基於所述分級;由所述計算系統對所述第一實體類型的一個或多個實體的一個或多個屬性構成的第一組和所述第二實體類型的一個或多個實體的一個或多個屬性構成的第二組執行資料庫聯接操作,其中,所述執行的結果是第二聚合實體類型;由所述計算系統確定關於所述第二聚合實體類型的第二分類準確度;由所述計算系統確定所述第二分類準確度小於或等於所述第一分類準確度;由所述計算系統響應於所述確定所述第二測量小於或等於所述第一測量而識別最優的一組一個或多個屬性作為所述第一組一個或多個屬性,其中所述最優組對與所述聯網系統相關聯的問題有影響;以及在耦接到所述計算系統的數據存儲庫中存儲所述最優組。
2. 如權利要求1所述的方法,進一步包括產生用於配置所述聯 網系統以避免所述問題的一組最佳實踐,其中符合所述一組最佳實踐 的所述聯網系統的配置排除了具有所述最優的一組一個或多個屬性的任何實體。
3.如權利要求1所述的方法,其中,所述對所述多個實體類型 進行分級包括確定信息熵值好(T)為^ 、力'",其中,r是所述多個實體類 型中的實體類型,其中/;^是r的結果y發生的概率,且其中"是r 的可能結果的總數。
4.如權利要求3所述的方法,其中,所述對所述多個實體類型進行分級進一步包括識別報告所述問題的 一組實體,其中所述一組實體被包括在所述多個實體中;在所述識別所述一組實體之後,確定在所述一組實體內部的i 個真數據路徑,其中所述戶個真數據路徑中的個真數據路徑被包括在所述聯網系統的配置的A個割集中的第/個割集中,且其中*>1;在所述識別所述一組實體之後,確定在所述一組實體外部的iV 個假數據路徑,其中所述7V個假數據路徑中的 個假數據路徑被包 括在所述配置的所述第,'個割集中;以及 確定熵值Ew^ /y;(^,A^為formula see original document page 3
5.如權利要求4所述的方法,其中,所述對所述多個實體類型 進行分級進一步包括確定所述多個信息增益值中的信息增益值G附Vi(D為formula see original document page 3,其中G附7t(7)表示所述實體類型r的信息增益;以及基於C 似7i(T),將所述實體類型r相對於所述多個實體類型中的一個或多個其他實體類型進行排序。
6. 如權利要求1所述的方法,其中,所述確定所述第一分類準 確度包括對所述第一實體類型應用決策樹算法,並且其中所述確定所 述第二分類準確度包括對所述第二聚合實體類型應用所述決策樹算 法。
7. 如權利要求1所述的方法,其中,所述第一實體類型是所述 第一聚合實體類型,並且其中所述方法進一步包括由所述計算系統在所述確定所述第 一測量之前以由所述分級確定的次序,來以--對應的方式對與所述多個實體類型中的《個實體類型相關聯的w組一個或多個屬性遞歸地執行所述資料庫聯接操作, 其中所述對所述《組一個或多個屬性遞歸地執行所述資料庫聯接操作 的結果是所述第一聚合實體類型。
8. 如權利要求7所述的方法,其中,所述選擇所述第二實體類 型包括確定所述第二實體類型的等級低於與所述w個實體類型相關 聯的w個等級,並且其中通過所述分級確定所述等級和所述w個等級。
9. 如權利要求1所述的方法,其中,所述第一實體類型是所述 最高等級實體類型,並且其中所述選擇所述第二實體類型包括基於所 述分級確定所述第二實體類型的等級是所述多個實體類型中的下一 最高等級實體類型。
10. 如權利要求l所述的方法,其中,所述聯網系統包括存儲區 域網絡。
11. 一種計算系統,包括處理器和耦接到所述處理器的計算機可 讀存儲器單元,所述存儲器單元包含當由所述處理器執行時實現一種自動識別實體的最優屬性組以有助於產生用於配置聯網系統的最佳實踐的方法的指令,其中所述方法包括基於多個信息增益值對包括在所述聯網系統中的多個實體的多 個實體類型進行分級;在所述分級之後確定關於第一實體類型的第一分類準確度,其中 所述第一實體類型是基於所述分級的所述多個實體類型的最高等級 的實體類型或者是與所述多個實體類型的兩個或多個實體類型相關 聯的第一聚合實體類型;在所述確定所述第一測量之後,選擇所述多個實體類型的第二實 體類型,其中所述選擇基於所述分級;對所述第一實體類型的一個或多個實體的一個或多個屬性構成 的第一組和所述第二實體類型的一個或多個實體的一個或多個屬性 構成的第二組執行資料庫聯接操作,其中,所述執行的結果是第二聚 合實體類型;確定關於所述第二聚合實體類型的第二分類準確度; 確定所述第二分類準確度小於或等於所述第一分類準確度; 響應於所述確定所述第二測量小於或等於所述第一測量而識別 最優的一組一個或多個屬性作為所述第一組一個或多個屬性,其中所 述最優組對與所述聯網系統相關聯的問題有影響;以及在耦接到所述計算系統的數據存儲庫中存儲所述最優組。
12.如權利要求11所述的系統,其中,所述方法進一步包括產 生用於配置所述聯網系統以避免所述問題的一組最佳實踐,其中符合 所述一組最佳實踐的所述聯網系統的配置排除了具有所述最優的一 組一個或多個屬性的任何實體。
13.如權利要求11所述的系統,其中,所述對所述多個實體類 型進行分級包括確定信息熵值F(T)為^ UC/)J,其中,r是所述多個實體類型中的實體類型,其中/7(/)是r的結果y發生的概率,且其中/i是r 的可能結果的總數。
14. 如權利要求13所述的系統,其中,所述對所述多個實體類 型進行分級進一步包括識別報告所述問題的一組實體,其中所述一組實體被包括在所述 多個實體中;在所述識別所述一組實體之後,確定在所述一組實體內部的戶 個真數據路徑,其中所述戶個真數據路徑中的A個真數據路徑被包括在所述聯網系統的配置的A個割集中的第Z個割集中,且其中A>1;在所述識別所述一組實體之後,確定在所述一組實體外部的 個假數據路徑,其中所述iV個假數據路徑中的 個假數據路徑被包 括在所述配置的所述第/個割集中;以及確定熵值^"",i^/y^iW為formula see original document page 6
15. 如權利要求14所述的系統,其中,所述對所述多個實體類 型進行分級進一步包括確定所述多個信息增益值中的信息增益值G /"(T)為u 6戶+w :其中G"/fi(TJ表示所述實體類型r的信息增益;以及基於g"/w(T力將所述實體類型r相對於所述多個實體類型中的 一個或多個其他實體類型進行排序。
全文摘要
一種用於自動識別包括在聯網系統中的實體的最優屬性組的方法和系統。基於信息增益對實體類型進行分級。確定關於第一實體類型的第一分類準確度。第一實體類型是頂級的實體類型或者第一聚合實體類型。基於分級選擇第二實體類型。執行與第一實體類型相關的第一組屬性和與第二實體類型相關的第二組屬性的資料庫聯接。確定通過聯接產生的關於第二聚合實體類型的第二分類準確度。響應於確定第二分類準確度不大於第一分類準確度,將對聯網系統中的問題有影響的最優屬性組識別為第一組屬性。
文檔編號H04L12/24GK101494557SQ20091000212
公開日2009年7月29日 申請日期2009年1月15日 優先權日2008年1月21日
發明者E·K·巴特勒, P·薩卡爾, 拉馬尼·蘭傑·魯特萊伊, 楊起榮, 譚仲浩 申請人:國際商業機器公司