一種基於聚類的大數據交叉分析預警方法及系統的製作方法

2023-05-07 11:50:41 4

一種基於聚類的大數據交叉分析預警方法及系統的製作方法
【專利摘要】本發明公開了一種基於聚類的大數據交叉分析預警方法及系統。本方法為：1)伺服器按照時間段劃分從各終端採集的樣本；2)對於每一時間段的樣本集聚類，得到的簇作為樣本的標籤進行標註，然後根據所選降維指標計算已標註樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性，選取若干屬性作為降維後保留的屬性；3)對降維後的樣本數據集聚類，將得到的簇作為態勢指數，建一態勢指數時間序列，確定一常態區域；並且根據各時間段的樣本數據總量時間序列確定一樣本總量常態區域；4)計算當前時刻所採集樣本數據的態勢指數和樣本總量，然後根據常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態，反饋交叉預警信息。
【專利說明】一種基於聚類的大數據交叉分析預警方法及系統

【技術領域】
[0001] 本發明涉及一種預警方法，尤其涉及一種基於聚類的大數據交叉分析預警方法及系統。

【背景技術】
[0002] 在現實生活中，我們經常會面對一類複雜的時間序列數據，在每個時間點對應的截面上，都對應一組樣本數據，各個時間點之間的樣本數據沒有必然的聯繫，從而不是公知的面板數據，甚至各時間點的樣本數量都不具有相等關係。我們希望在對這些數據缺乏足夠了解的情況下，確定每個截面上數據之間的相似性，判斷不同屬性對這種相似性的影響程度，以及這些蘊含在數據中的關係在時間序列上如何傳遞和變化，並由此作出異常情況的預警。
[0003] 由於我們對數據的了解非常缺乏，我們常常需要依據經驗和主觀判斷將屬性進行分類，再進行後續的研究。例如，對於消費者的購物籃數據，我們將消費者按照消費金額分為高、中、低三類，或者按照消費者年齡分為老、中、青三類，再比較各個分類中眾多數據的均值、方差等指標隨時間序列的變化，由此作出預警。這種分類方法存在兩大缺陷：其一，嚴重依賴於主觀的分類，使分析結果喪失客觀性；其二，將眾多數據壓縮成均值、方差等指標，喪失了大量的信息，使分析結果不能充分反映情況，預警效果差強人意。
[0004] 上述的分類情況可以看成是"樣本數據內部子結構"的指標，而樣本的另一種常見指標就是"樣本總量"。將兩類指標的增加或減少的異常情況進行交叉分析，可以獲得更加豐富的預警信息。本專利就旨在挖掘這類預警信息。
[0005] 對這類複雜的時間序列數據做出預警時，還會遇到"大數據"的問題。隨著信息技術的高速發展，人們積累的數據量急劇增長，如何從海量的數據中提取有用的知識成為當務之急。經過清洗的樣本數據匯總到中央資料庫。由於樣本量巨大，形成了維數大、規模大、複雜性大的大數據形態，要挖掘其中有意義的知識和內容以指導實際生產和具體應用，需要首先進行降維處理，即維數約簡。它一方面可以解決"維數災難"，緩解大數據中"信息豐富但知識貧乏"的問題，降低計算的複雜度；另一方面可以引導人們更好地認識和理解數據。數據降維的方法很多，例如：根據數據本身的特性，可以分為線性降維和非線性降維兩種；根據是否考慮和利用數據的監督信息，可以分為無監督降維、有監督降維和半監督降維三種；根據是否需要保持數據的結構，可以分為全局保持降維、局部保持降維和全局與局部保持一致降維等。

【發明內容】

[0006] 針對現有技術中存在的技術問題，本發明的目的在於提供一種基於聚類的大數據交叉分析預警方法及系統。
[0007] 首先，根據實際需要選擇時間段，根據時間段劃分樣本，以便進行比較。其次，使用 "抽樣_>聚類_>計算降維指標"的流程進行大數據降維，將聚類獲得的簇作為已知的標籤，採用完全客觀的算法來選擇對樣本的已知標籤具有較大影響力的維度。也就是說，這些在降維中被保留下來的維度不是主觀確定的，不依賴於經驗模型。再次，針對降維後的全體數據，使用聚類分析算法將樣本進行聚類，獲得數據客觀蘊含的相似性，再將聚類結果（簇）的個數定義為態勢指數。最後，將各個時間段的態勢指數形成時間序列，使用拐點分析方法進行異常值預警。另一方面，我們對樣本總量指標進行態勢分析，也可以獲得宏觀預警。最後將兩項指標的預警情況進行交叉分析，獲得更加深刻的預警信息。
[0008] 本發明公開的基於聚類的態勢分析預警方法，其創新點在於定義了一種全新的宏觀指標"態勢指數"，即截面數據中聚類獲得的簇的數量，它反映了數據內部蘊含的子結構的數量，由此可以對每個時間點的截面數據中蘊含的子結構的數量變化進行預警，是常用的截面數據樣本量指標的有力補充。進一步的，將兩項指標的預警情況進行交叉分析，獲得更加深刻的預警信息。
[0009] 本發明的技術方案為：
[0010] 一種基於聚類的大數據交叉分析預警方法及系統，其步驟為：
[0011] 1)中央伺服器從各終端伺服器採集樣本數據，並按照時間段對樣本數據進行劃分，每個時間段對應一樣本數據集；
[0012] 2)對於每一時間段的樣本數據集，從中抽取若干樣本構建一抽樣樣本集合，並對其進行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標籤，對樣本進行標註，然後根據選取的屬性降維指標（辨識度和或重要性）計算所述抽樣樣本集合中已標註樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性；
[0013] 3)分別根據屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性對屬性進行排序，選取若干屬性作為大數據降維後保留的屬性；
[0014] 4)對屬性降維後的每一所述樣本數據集進行聚類，將聚類得到的簇作為所述樣本數據集的態勢指數；
[0015] 5)根據各個時間段的態勢指數構建一態勢指數時間序列；然後根據該態勢指數時間序列確定一常態區域；並且根據各時間段的樣本數據總量得到一樣本數據總量時間序列，然後根據樣本數據總量時間序列確定一樣本總量常態區域；
[0016] 6)計算當前時刻所採集樣本數據的態勢指數和樣本總量，然後根據所述常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態，如果其中一項出現預警狀態，則根據當前態勢指數和樣本總量的狀態反饋交叉預警信息；
[0017] 其中，屬性值辨識度的計算方法為：選取樣本一屬性i的一屬性值a，計算具有該屬性值a的樣本屬於標籤j的條件概率值，以及未增加該屬性值條件時樣本屬於該標籤j 的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對於該標籤j的屬性值辨識度；將該屬性值a對於所有標籤的屬性值辨識度的平方平均數作為該屬性值a的屬性值辨識度；
[0018] 屬性辨識度的計算方法為：根據屬性i所有屬性值辨識度計算該屬性i的屬性辨識度；
[0019] 屬性值重要性的計算方法為：將樣本屬性i取屬性值a時屬於標籤j的樣本量乘以該屬性值a對於該標籤j的屬性辨識度，得到該屬性值a對於該標籤j的屬性值重要性；將該屬性值a對於所有標籤的屬性值重要性的平方平均數作為該屬性值a的屬性值重要性；
[0020] 屬性重要性的計算方法為：根據屬性i所有屬性值重要性計算該屬性i的屬性重要性。
[0021] 進一步的，根據所述常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態的方法為：如果當前時刻的態勢指數超出所述常態區域，則對其進行監控，並計算下一時刻所採集樣本數據的態勢指數，如果仍超出所述常態區域，則進入預警狀態；如果當前時刻的樣本總量超出所述樣本總量常態區域，則對其進行監控，並計算下一時刻所採集樣本數據總量，如果仍超出所述樣本總量常態區域，則進入預警狀態。
[0022] 進一步的，所述交叉預警信息包括：態勢指數向上預警、樣本總量向上預警，態勢指數向下預警、樣本總量向上預警，態勢指數無預警、樣本總量向上預警；態勢指數向上預警、樣本總量向下預警，態勢指數向下預警、樣本總量向下預警，態勢指數無預警、樣本總量向下預警；態勢指數向上預警、樣本總量無預警，態勢指數向下預警、樣本總量無預警。
[0023] 進一步的，將屬性i所有屬性值的屬性重要性的平方平均數作為該屬性的屬性重要性；對該屬性i所有屬性值的屬性值辨識度平方平均數作為該屬性i的屬性辨識度。
[0024] 進一步的，採用基於條件概率和貝葉斯算法計算所述辨識度。
[0025] 本發明系統如圖4所示，其主要包括：
[0026] 1、數據降維模塊
[0027] 本系統提供降維指標的選擇，可選擇的降維指標有：屬性辨識度和或屬性重要性。通過計算選定的降維指標，並給出排序，可以確定降維後應該保留哪些屬性。具體而言：首先，對採集的樣本進行抽樣和聚類分析，得到若干簇，將聚類得到的簇作為樣本的標籤，對樣本進行標註。其次，計算標註樣本每一屬性的屬性值辨識度、屬性辨識度以及屬性值重要性、屬性重要性，提取由數據本身決定的"屬性對相似性的影響力"指標。最後，根據選定的降維指標的計算結果對屬性排序；選取排序靠前的屬性對樣本數據進行降維。本發明定義了四個相互關聯但又互不相同的影響力指標：屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性，從而更加全面準確的刻畫"屬性對分類的影響力"大小。下面簡要介紹這四個指標的概念，具體計算方法詳見下文"【具體實施方式】"部分。
[0028] (1)屬性值辨識度和屬性辨識度
[0029] 我們常說的"辨識度"有兩種理解：第一，擁有該屬性的樣本被辨認出來的能力，一個歌聲辨識度高的歌手只需要演唱一句就可以讓大家認出他是誰，一個相貌辨識度高的演員即使穿著平常走在人群中也可以被大家發現。第二，是擁有該屬性的樣本被準確分類的能力，例如，某影視基地同時開拍一部清宮劇和一部現代劇，面對一個腦後垂著長辮子的男演員，即使他沒有說明自己屬於哪個劇組，也基本可以斷定他屬於清宮劇劇組，可見"性別 =男、髮型=長辮子"的屬性值對"劇組"這一分類的辨識度很高。本專利定義的屬性值辨識度和屬性辨識度採用的是後一種概念。
[0030] (2)屬性值重要性和屬性重要性
[0031] 屬性辨識度概念沒有考慮具有該屬性的樣本量，為了進一步平衡屬性值的辨別能力和對應的樣本量，在"辨識度"概念的基礎上定義"重要性"概念。粗略的說，重要性等於辨識度乘以樣本量。
[0032] (3) "辨識度"和"重要性"
[0033] 我們選擇"辨識度"和"重要性"兩個指標作為"屬性對分類的影響力"的判斷指標，是因為這兩個指標在實際操作中具有完全不同的意義。
[0034] 考慮青少年犯罪影響因素案例，如果通過聚類分析獲得兩個簇，分別代表"暴力犯罪"和"非暴力犯罪"。其中，青少年"是否吸毒=是"的屬性值對"暴力犯罪"的簇具有極高的辨識度，也就是吸毒的青少年如果參與犯罪，這主要是暴力犯罪，可見應該注意重點排查、幹預這部分青少年的行為，採取針對其個人的預防監控措施。然而，由於一萬個青少年中吸毒的樣本非常少，這個屬性值的重要性並不大，重要性較高的屬性值可能是"是否打架鬥毆=是"，該的屬性值涉及的樣本較多，更適合採用大面積宣傳教育的方式進行預防幹預，從而提1?幹預效率。
[0035] 2.態勢指數計算模塊
[0036] 本方法通過對屬性降維後的樣本數據集進行聚類，將聚類得到的簇作為對應樣本數據集的態勢指數。數據採集模塊按照時間段對對採集的樣本數據進行劃分，每個時間段對應一樣本數據集。
[0037] 3.拐點分析模塊
[0038] 本發明使用全新的拐點分析技術，通過歷史數據計算態勢指數確定出一定義常態區域，並通過數據點及其發展趨勢與常態區域的關係，將數據分為三種狀態：可控狀態、監控狀態、預警狀態。如圖1所示，以周期為18的時間序列數據為例。我們首先使用三個周期的數據圍成常態區域，即圖中的灰色區域，接下來根據常態區域對新的一個周期的數據 (黑色實線）進行拐點分析和預警。
[0039] 可以發現，黑線上的大多數數據點落在常態區域中，屬於可控狀態。圖中A點和B 點落在常態區域之外，且都是曲線從常態區域中突破出來的第一個點，進入監控狀態。如果數據點進入監控狀態，相關人員應該保持密切監控，並對接下來的數據點進行拐點分析，也就是用拐點分析技術判斷數據的發展趨勢是"進一步突破"還是"反轉回歸"。具體而言：
[0040] ①案例中，A點的下一時刻，曲線斜率符號轉變（由正變成零或負），即向正常狀態回歸，因此該數據值仍然屬於監控狀態，直到數據點回歸到常態區域內，監控解除，或者曲線斜率符號再度轉變，遠離常態區域，變成預警狀態。
[0041] ②案例中，B點的下一時刻，曲線斜率並未發生符號轉變，認為進一步偏離常態區域，因此該數據值變成預警狀態，做出預警。相關人員應該集中精力分析這些預警的"異常" 數據點。
[0042] 4.交叉分析模塊
[0043] 本系統將"態勢指數"和"樣本總量"兩項指標中至少一項進入預警狀態的時間點，做出交叉分析，獲得詳細的預警信息。根據定義，"態勢指數向上預警"表示數據蘊含的內部結構數量顯著增加；"態勢指數向下預警"表示數據蘊含的內部結構數量顯著減少；"樣本總量向上預警"表示樣本總量顯著增加；"樣本總量向下預警"表示樣本總量顯著減少。交叉分析就是對這兩項指標預警情況的各種組合進行深入分析，獲取詳細的預警信息。
[0044] 交叉分析的基本原理可以用圖2來表示，其中狀態A為基本狀態，其他八種狀態對應的"態勢指數"和"樣本總量"兩項指標變化情況如下：
[0045] 狀態B :態勢指數向上預警、樣本總量向下預警；
[0046] 狀態C :態勢指數向上預警、樣本總量無預警；
[0047] 狀態D :態勢指數向上預警、樣本總量向上預警；
[0048] 狀態E :態勢指數無預警、樣本總量向下預警；
[0049] 狀態F :態勢指數無預警、樣本總量向上預警；
[0050] 狀態G :態勢指數向下預警、樣本總量向下預警；
[0051] 狀態Η :態勢指數向下預警、樣本總量無預警；
[0052] 狀態I :態勢指數向下預警、樣本總量向上預警。
[0053] 由此，可以獲得詳細的預警信息。例如，案例1的數據處於狀態I時，顧客的消費習慣逐漸集中到幾種主流的常見的消費模式，可能是幾種主流的商品（品牌、價位）佔據絕大部分市場，其他商品失去競爭力等等，同時消費總量大大增加，說明市場繁榮。這種狀態說明該超市中主流商品市場進入成熟階段，主流商品市場影響力大，可能已經進入價格戰狀態，影響利潤率。因此，儘管市場繁榮，但消費模式逐漸單一、缺乏有吸引力的新產品，該超市的經營狀態可能蘊含大起大落的風險，一旦在影響力較大的主流商品銷售中出現障礙或強有力的競爭、或者其他銷售商針對超市主流消費者進行促銷，則將大大影響經營現狀。相比而言，現在的常見分析方法僅基於"營業額"，將得出經營狀況良好的結論，不能給出潛在風險的預警，詳見"【具體實施方式】"部分。
[0054] 與現有技術相比，本發明的積極效果：
[0055] 本發明直接使用聚類獲得的簇的個數作為宏觀指標，其優點在於操作簡單、計算複雜性低，有利於在實際操作中使用和推廣。其缺點在於傳統的聚類分析算法基於隨機的初始值進行迭代，因此獲得的簇的個數存在一定隨機性，為了克服這一缺點，可以使用若干次聚類獲得的簇的個數的平均值作為宏觀指標。
[0056] 本發明公開的態勢分析預警方法，可應用於公安情報數據分析、反腐敗數據分析、居民家庭用電情況分析、交通出行模式分析、疾病特徵數據分析、醫療數據分析、客戶市場細分等多種領域，提取"屬性對相似性的影響力"指標，具有較強的普適性。

【專利附圖】

【附圖說明】
[0057] 圖1 :拐點分析和預警的簡單實例圖；
[0058] 圖2 :受叉分析基本原理不意圖；
[0059] 圖3 :基於聚類的大數據交叉分析預警系統流程圖；
[0060] 圖4 :基於聚類的大數據交叉分析預警系統結構圖；
[0061] 圖5 :常態模式的概念圖；
[0062] 圖6 :常態模式實例圖；
[0063] 圖7 :根據態勢指數歷史數據繪製的常態區域圖；
[0064] 圖8 :根據新周期中態勢指數的狀態圖；
[0065] 圖9 :狀態Β變化示意圖；
[0066] 圖10 :狀態C變化示意圖；
[0067] 圖11 :狀態D變化示意圖；
[0068] 圖12 :狀態Ε變化示意圖；
[0069] 圖13 :狀態F變化示意圖；
[0070] 圖14 :狀態G變化示意圖；
[0071] 圖15 :狀態Η變化示意圖；
[0072] 圖16 :狀態I變化示意圖。

【具體實施方式】
[0073] 本發明公開了一種基於聚類的大數據態勢分析預警方法和系統，可以得到多層次的預警結果，具體操作步驟如下。
[0074] 步驟1 :數據採集。
[0075] 數據採集模塊是本專利系統的硬體基礎。該模塊將待分析的無標籤樣本數據從分布在各地的終端資料庫中傳輸匯總到中央資料庫。
[0076] 步驟2:數據清洗。
[0077] 通過數據採集終端匯總得到的數據，難免存在不完整、錯誤、重複等現象。數據清洗步驟用於過濾這些不符合要求的數據，過濾的結果將提交給相關主管部門，確認是直接過濾掉還是作為異常值提取出來做進一步分析。
[0078] 步驟3 :時間段選擇及劃分。
[0079] 根據客戶實際需求，將樣本數據劃分為若干時間段，針對每個時間段重複步驟4 和步驟5。本系統提供客戶時間段劃分的選擇功能。
[0080] 步驟4:數據降維。
[0081] 經過清洗和時間段劃分的樣本數據匯總到中央資料庫。由於樣本量（Ν1)巨大，形成了維數大、規模大、複雜性大的大數據形態，要挖掘其中有意義的知識和內容以指導實際生產和具體應用，需要首先進行降維處理，即維數約簡。它一方面可以解決"維數災難"，緩解大數據中"信息豐富但知識貧乏"的問題，降低計算的複雜度；另一方面可以引導人們更好地認識和理解數據。
[0082] 數據降維步驟包括以下子步驟：
[0083] 步驟4.1:數據抽樣。
[0084] 對全體樣本進行系統抽樣（systematic sampling)。系統抽樣，又稱機械抽樣、等距抽樣。具體而言：
[0085] (1)由系統硬體運轉能力確定適合的抽樣樣本量（N2)，定義壓縮比（M)為：
[0086] M = N1+N2;
[0087] (2)將全體樣本數據按某一順序排列起來，標註唯一的序號；
[0088] (3)從前Μ個樣本中隨機的選出一個樣本作為抽樣樣本，記其序號為k ;
[0089] (4)將序號為k、k+M、k+2*M、...、k+(N2-l)*M的N2個樣本作為抽樣結果。
[0090] 步驟4. 2 :數據聚類。
[0091] 本步驟可以建立在任何一種公知的聚類分析算法結果之上，通過對抽樣後的樣本數據進行聚類分析，得到若干簇。
[0092] 步驟4. 3 :降維指標選擇。
[0093] 針對抽樣得到的N2個樣本以及聚類獲得的若干簇，可以通過後續的步驟計算降維指標（即"屬性對相似性的影響力"），並根據"影響力"的排序來確定降維後保留的屬性。本系統提供降維指標的選擇，可選擇的降維指標有：
[0094] 降維指標1 :屬性辨識度指標；
[0095] 降維指標2 :屬性重要性指標。
[0096] 降維指標選擇主要看待分析的問題中"樣本量"因素是否重要，建議如下：
[0097] (1)如果"樣本量"因素不重要，應選擇屬性辨識度指標給出影響力排序；
[0098] (2)如果"樣本量"因素重要，應選擇屬性重要性指標給出影響力排序；
[0099] (3)如果想綜合考慮上述兩種情況，應結合這兩個指標給出綜合性的排序。
[0100] 步驟4. 4 :降維指標計算。
[0101] 計算降維指標，也就是計算每個屬性"對相似性的影響力"，具體包括：屬性辨識度和屬性重要性，同時還需要計算兩個過渡性的指標：屬性值辨識度和屬性值重要性。我們以案例為基礎，說明這四項指標的主要計算步驟。系統將根據用戶在步驟3. 2中的選擇情況計算相應的指標。
[0102] 四項指標計算案例：
[0103] -個包含100人的研究樣本，其中包含50名女性和50名男性，其中20人有前科。通過聚類分析獲得了兩個"簇"，其中"簇1"包含10個樣本，絕大部分是犯有盜竊罪的人，而"簇2"包含90個樣本，絕大部分是未犯有盜竊罪的人。其他數據如表1。
[0104] 表1 :四項指標計算案例
[0105]
[0106]

【權利要求】
1. 一種基於聚類的大數據交叉分析預警方法，其步驟為： 1) 中央伺服器從各終端伺服器採集樣本數據，並按照時間段對樣本數據進行劃分，每個時間段對應一樣本數據集； 2) 對於每一時間段的樣本數據集，從中抽取若干樣本構建一抽樣樣本集合，並對其進行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標籤，對樣本進行標註，然後根據選取的屬性降維指標計算所述抽樣樣本集合中已標註樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性； 3) 分別根據屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性對屬性進行排序，選取若干屬性作為大數據降維後保留的屬性； 4) 對屬性降維後的每一所述樣本數據集進行聚類，將聚類得到的簇作為所述樣本數據集的態勢指數； 5) 根據各個時間段的態勢指數構建一態勢指數時間序列；然後根據該態勢指數時間序列確定一常態區域；並且根據各時間段的樣本數據總量得到一樣本數據總量時間序列，然後根據樣本數據總量時間序列確定一樣本總量常態區域； 6) 計算當前時刻所採集樣本數據的態勢指數和樣本總量，然後根據所述常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態，如果其中一項出現預警狀態，則根據當前態勢指數和樣本總量的狀態反饋交叉預警信息；其中，屬性值辨識度的計算方法為：選取樣本一屬性i的一屬性值a，計算具有該屬性值a的樣本屬於標籤j的條件概率值，以及未增加該屬性值條件時樣本屬於該標籤j的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對於該標籤j的屬性值辨識度；將該屬性值a對於所有標籤的屬性值辨識度的平方平均數作為該屬性值a的屬性值辨識度；屬性辨識度的計算方法為：根據屬性i所有屬性值辨識度計算該屬性i的屬性辨識度；屬性值重要性的計算方法為：將樣本屬性i取屬性值a時屬於標籤j的樣本量乘以該屬性值a對於該標籤j的屬性辨識度，得到該屬性值a對於該標籤j的屬性值重要性；將該屬性值a對於所有標籤的屬性值重要性的平方平均數作為該屬性值a的屬性值重要性；屬性重要性的計算方法為：根據屬性i所有屬性值重要性計算該屬性i的屬性重要性。
2. 如權利要求1所述的方法，其特徵在於根據所述常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態的方法為：如果當前時刻的態勢指數超出所述常態區域，則對其進行監控，並計算下一時刻所採集樣本數據的態勢指數，如果仍超出所述常態區域，則進入預警狀態；如果當前時刻的樣本總量超出所述樣本總量常態區域，則對其進行監控，並計算下一時刻所採集樣本數據總量，如果仍超出所述樣本總量常態區域，則進入預警狀態。
3. 如權利要求1或2所述的方法，其特徵在於所述交叉預警信息包括：態勢指數向上預警、樣本總量向上預警，態勢指數向下預警、樣本總量向上預警，態勢指數無預警、樣本總量向上預警；態勢指數向上預警、樣本總量向下預警，態勢指數向下預警、樣本總量向下預警，態勢指數無預警、樣本總量向下預警；態勢指數向上預警、樣本總量無預警，態勢指數向下預警、樣本總量無預警。
4. 如權利要求1所述的方法，其特徵在於將屬性i所有屬性值的屬性重要性的平方平均數作為該屬性的屬性重要性；對該屬性i所有屬性值的屬性值辨識度平方平均數作為該屬性i的屬性辨識度。
5. 如權利要求1或4所述的方法，其特徵在於採用基於條件概率和貝葉斯算法計算所述辨識度。
6. -種基於聚類的大數據交叉分析預警系統，其特徵在於包括多個終端伺服器和一中央伺服器，所述終端伺服器通過網絡與所述中央伺服器連接；其中，所述中央伺服器包括數據採集模塊、數據降維模塊、態勢指數計算模塊、拐點分析模塊和交叉分析模塊；所述數據採集模塊，用於從各終端伺服器採集樣本數據，並按照時間段對樣本數據進行劃分，每個時間段對應一樣本數據集；所述數據降維模塊，用於從每一時間段的樣本數據集中抽取若干樣本構建一抽樣樣本集合，並對其進行聚類分析，得到若干簇；將聚類得到的簇作為樣本的標籤，對樣本進行標注，然後根據選取的屬性降維指標計算所述抽樣樣本集合中已標註樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性，並根據計算結果對屬性進行排序，選取若干屬性作為大數據降維後保留的屬性；所述態勢指數計算模塊，用於對每一屬性降維後的所述樣本數據集進行聚類，將聚類得到的簇作為所述樣本數據集的態勢指數；所述拐點分析模塊，用於根據各個時間段的態勢指數構建一態勢指數時間序列；然後根據該態勢指數時間序列確定一常態區域；並且根據各時間段的樣本數據總量得到一樣本數據總量時間序列，然後根據樣本數據總量時間序列確定一樣本總量常態區域；計算當前時刻所採集樣本數據的態勢指數和樣本總量，然後根據所述常態區域、樣本總量常態區域分別確定態勢指數和樣本總量的狀態；所述交叉分析模塊，用於根據態勢指數和樣本總量的狀態進行交叉預警分析，如果其中一項出現預警狀態，則根據當前態勢指數和樣本總量的狀態反饋交叉預警信息；其中，屬性值辨識度的計算方法為：選取樣本一屬性i的一屬性值a，計算具有該屬性值a的樣本屬於標籤j的條件概率值，以及未增加該屬性值條件時樣本屬於該標籤j的概率值；將所述條件概率值與所述概率值的差值作為該屬性值a對於該標籤j的屬性值辨識度；將該屬性值a對於所有標籤的屬性值辨識度的平方平均數作為該屬性值a的屬性值辨識度；屬性辨識度的計算方法為：根據屬性i所有屬性值辨識度計算該屬性i的屬性辨識度；屬性值重要性的計算方法為：將樣本屬性i取屬性值a時屬於標籤j的樣本量乘以該屬性值a對於該標籤j的屬性辨識度，得到該屬性值a對於該標籤j的屬性值重要性；將該屬性值a對於所有標籤的屬性值重要性的平方平均數作為該屬性值a的屬性值重要性；屬性重要性的計算方法為：根據屬性i所有屬性值重要性計算該屬性i的屬性重要性。
7. 如權利要求6所述的系統，其特徵在於所述拐點分析模塊計算當前時刻的態勢指數和樣本總量，如果當前時刻的態勢指數超出所述常態區域，則對其進行監控，並計算下一時刻所採集樣本數據的態勢指數，如果仍超出所述常態區域，則態勢指數進入預警狀態；如果當前時刻的樣本總量超出所述樣本總量常態區域，則對其進行監控，並計算下一時刻所採集樣本數據總量，如果仍超出所述樣本總量常態區域，則樣本總量進入預警狀態。
8. 如權利要求6或7所述的系統，其特徵在於所述交叉預警信息包括：態勢指數向上預警、樣本總量向上預警，態勢指數向下預警、樣本總量向上預警，態勢指數無預警、樣本總量向上預警；態勢指數向上預警、樣本總量向下預警，態勢指數向下預警、樣本總量向下預警，態勢指數無預警、樣本總量向下預警；態勢指數向上預警、樣本總量無預警，態勢指數向下預警、樣本總量無預警。
9. 如權利要求6所述的系統，其特徵在於將屬性i所有屬性值的屬性重要性的平方平均數作為該屬性的屬性重要性；對該屬性i所有屬性值的屬性值辨識度平方平均數作為該屬性i的屬性辨識度。
10. 如權利要求6或9所述的系統，其特徵在於採用基於條件概率和貝葉斯算法計算所述辨識度。
【文檔編號】G06F19/00GK104123465SQ201410356006
【公開日】2014年10月29日申請日期:2014年7月24日優先權日:2014年7月24日
【發明者】王電, 黃煜可, 陳慶彬申請人:中國軟體與技術服務股份有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種基於聚類的大數據交叉分析預警方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法