大數據分析系統及方法
2023-04-25 21:40:01 2
大數據分析系統及方法
【專利摘要】本發明涉及信息處理【技術領域】,具體地說是一種複雜度低、計算速度快、查找效率高的大數據分析系統及方法,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡圖模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊;用於輸出發現結果的結果輸出模塊,本發明與現有技術相比,能夠通過快速的處理個體之間的通信數據,完成某一潛在團體的分類、劃定和輸出,具有處理速度快、分析效率高等顯著的優點。
【專利說明】大數據分析系統及方法
【技術領域】:
[0001] 本發明涉及信息處理【技術領域】,具體地說是一種複雜度低、計算速度快、查找效率 高的大數據分析系統及方法。
【背景技術】:
[0002] 大數據技術或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流 軟體工具,在合理的時間內達到汲取、管理、處理並整理成為幫助企業經營決策更積極目的 資訊。大數據計數的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據 進行專業化的處理,換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵在 於提高對數據的"加工能力",通過加工數據實現增值。
[0003] 如何從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事 先不知道的、但有時潛在有用的信息的過程被稱為數據挖掘,顯而易見,數據挖掘時大數據 技術的關鍵。
【發明內容】
:
[0004] 本發明針對現有技術中存在的缺點和不足,提出了一種複雜度低、計算速度快、查 找效率高的大數據分析系統及方法。
[0005] 本發明通過以下措施達到:
[0006] -種大數據分析系統,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取 模塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡 圖模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊; 用於輸出發現結果的結果輸出模塊。
[0007] 本發明還提出一種大數據分析方法,其特徵在於包括以下步驟:
[0008] 步驟1 :通過數據分析和提取模塊提取關鍵信息,所述關鍵信息為個體之間的通 話記錄數據;
[0009] 步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理;
[0010] 步驟3 :構建網絡圖模型,將每個個體抽象為網絡圖模型中的一個節點,將個體之 間的聯繫抽象為網絡圖中的邊,使用步驟1中提取的數據,用矩陣的形式存儲網絡圖模型;
[0011] 步驟4:設置分析參數以及運算閾值,分析參數包括個體的數量,運算閾值用於限 定輸出個體數量;
[0012] 步驟5 :運行發現算法,對網絡圖模進行劃分並進一步分析運算;
[0013] 步驟6:輸出運算結果。
[0014] 本發明步驟1具體通過以下步驟實現:
[0015] 步驟1-1:對每個個體分配唯一的id,該id之後會對應網絡圖中的一個節點;
[0016] 步驟1-2 :對於任意的兩個個體i和j之間,如果存在通信記錄,那麼以通信時長、 通信次數、通信頻率數據為參數計算i和j之間的聯繫權重係數,計算公式如下:
[0017] Wij= e φω+ 0(η)+γ(?),其中Wij表示權重值,Φ⑴,θ (η),γ (f)分別是通話時長 t,通話次數n,通話頻率f的函數,函數的具體形式根據具體的應用場景以及用戶的經驗確 定,可以選擇指數衰減函數、線性函數等,如果用戶還需要考慮更多的因素,只需要在指數 項上增加新的映射函數即可。
[0018] 本發明步驟2具體包括以下步驟:
[0019] 步驟2-1:從步驟1所獲取的資料庫中抽取數據組成訓練集X,用於訓練哈希函數, 訓練集的大小η目
【權利要求】
1. 一種大數據分析系統,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模 塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡圖 模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊;用 於輸出發現結果的結果輸出模塊。
2. -種大數據分析方法,其特徵在於包括以下步驟: 步驟1 :通過數據分析和提取模塊提取關鍵信息,所述關鍵信息為個體之間的通話記 錄數據; 步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理; 步驟3 :構建網絡圖模型,將每個個體抽象為網絡圖模型中的一個節點,將個體之間的 聯繫抽象為網絡圖中的邊,使用步驟1中提取的數據,用矩陣的形式存儲網絡圖模型; 步驟4:設置分析參數以及運算閾值,分析參數包括個體的數量,運算閾值用於限定輸 出個體數量; 步驟5 :運行發現算法,對網絡圖模進行劃分並進一步分析運算; 步驟6 :輸出運算結果。
3. 根據權利要求2所述的一種大數據分析方法,其特徵在於步驟1具體通過以下步驟 實現: 步驟1-1 :對每個個體分配唯一的id,該id之後會對應網絡圖中的一個節點; 步驟1-2 :對於任意的兩個個體i和j之間,如果存在通信記錄,那麼以通信時長、通信 次數、通信頻率數據為參數計算i和j之間的聯繫權重係數,計算公式如下: _
,其中Wu表示權重值,〇⑴,0 (n),y(f)分別是通話時長t,通話 次數n,通話頻率f的函數,函數的具體形式根據具體的應用場景以及用戶的經驗確定,可 以選擇指數衰減函數、線性函數等,如果用戶還需要考慮更多的因素,只需要在指數項上增 加新的映射函數即可。
4. 根據權利要求2所述的一種大數據分析方法,其特徵在於步驟2具體包括以下步 驟: 步驟2-1 :從步驟1所獲取的資料庫中抽取數據組成訓練集X,用於
,其中X為訓練集,B為基空間,B的每一個向量均為訓練集X中訓練出來的基向量,S是X被投影在基空間B上的低維實數值,A:和X2是通過十折交叉驗證方法取得的可調參 數,Wi,」是X中兩個實例XX」之間的歐式距離在高斯核上的投影,SS」是矩陣S中的 兩個向量,Bi>j是矩陣B中第i行和第j列的元素,i= 1,2,3,……,n為表示實例的記號, j= 1,2,3, ......k表示基向量的標號,n是實例的個數,k是基向量的個數,s> 0表示S 中每個元素非負; 步驟2-3 :對資料庫中還沒得到二進位代碼的實例進行二進位編碼,過稱謂對每一個 實例X,通過s= (B'B+2I)、'x得到x的低維實數值,然後通過哈希函數得到它的低維二 進位代碼,其中B是步驟2-2中定義的基空間,I是跟B同維度的單位矩陣,對整個資料庫 進行編碼,完成數據的預處理。
5.根據權利要求2所述的一種大數據分析方法,其特徵在於步驟3中網絡圖模型可以 表示為G= (V,E),其中G表示網絡圖,V表示圖中所有點的集合,E表示圖中所有邊的集 合,E中的每條邊帶有權重,邊權數存儲在一個單獨的向量列表裡。
【文檔編號】G06F19/00GK104484566SQ201410783566
【公開日】2015年4月1日 申請日期:2014年12月16日 優先權日:2014年12月16日
【發明者】殷晉, 章偉 申請人:蕪湖樂銳思信息諮詢有限公司