大數據分析系統及方法

2023-04-25 21:40:01 5

大數據分析系統及方法
【專利摘要】本發明涉及信息處理【技術領域】，具體地說是一種複雜度低、計算速度快、查找效率高的大數據分析系統及方法，其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模塊；用於對關鍵信息進行預處理的數據預處理模塊；用於將預處理後的數據抽象為網絡圖模型的網絡構建模塊；用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊；用於輸出發現結果的結果輸出模塊，本發明與現有技術相比，能夠通過快速的處理個體之間的通信數據，完成某一潛在團體的分類、劃定和輸出，具有處理速度快、分析效率高等顯著的優點。
【專利說明】大數據分析系統及方法

【技術領域】：
[0001] 本發明涉及信息處理【技術領域】，具體地說是一種複雜度低、計算速度快、查找效率高的大數據分析系統及方法。

【背景技術】：
[0002] 大數據技術或稱巨量資料，指的是所涉及的資料量規模巨大到無法通過目前主流軟體工具，在合理的時間內達到汲取、管理、處理並整理成為幫助企業經營決策更積極目的資訊。大數據計數的戰略意義不在於掌握龐大的數據信息，而在於對這些含有意義的數據進行專業化的處理，換言之，如果把大數據比作一種產業，那麼這種產業實現盈利的關鍵在於提高對數據的"加工能力"，通過加工數據實現增值。
[0003] 如何從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事先不知道的、但有時潛在有用的信息的過程被稱為數據挖掘，顯而易見，數據挖掘時大數據技術的關鍵。

【發明內容】
：
[0004] 本發明針對現有技術中存在的缺點和不足，提出了一種複雜度低、計算速度快、查找效率高的大數據分析系統及方法。
[0005] 本發明通過以下措施達到：
[0006] -種大數據分析系統，其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模塊；用於對關鍵信息進行預處理的數據預處理模塊；用於將預處理後的數據抽象為網絡圖模型的網絡構建模塊；用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊；用於輸出發現結果的結果輸出模塊。
[0007] 本發明還提出一種大數據分析方法，其特徵在於包括以下步驟：
[0008] 步驟1 :通過數據分析和提取模塊提取關鍵信息，所述關鍵信息為個體之間的通話記錄數據；
[0009] 步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理；
[0010] 步驟3 :構建網絡圖模型，將每個個體抽象為網絡圖模型中的一個節點，將個體之間的聯繫抽象為網絡圖中的邊，使用步驟1中提取的數據，用矩陣的形式存儲網絡圖模型；
[0011] 步驟4:設置分析參數以及運算閾值，分析參數包括個體的數量，運算閾值用於限定輸出個體數量；
[0012] 步驟5 :運行發現算法，對網絡圖模進行劃分並進一步分析運算；
[0013] 步驟6:輸出運算結果。
[0014] 本發明步驟1具體通過以下步驟實現：
[0015] 步驟1-1:對每個個體分配唯一的id，該id之後會對應網絡圖中的一個節點；
[0016] 步驟1-2 :對於任意的兩個個體i和j之間，如果存在通信記錄，那麼以通信時長、通信次數、通信頻率數據為參數計算i和j之間的聯繫權重係數，計算公式如下：
[0017] Wij= e φω+ 0(η)+γ(?)，其中Wij表示權重值，Φ⑴，θ (η)，γ (f)分別是通話時長 t，通話次數n，通話頻率f的函數，函數的具體形式根據具體的應用場景以及用戶的經驗確定，可以選擇指數衰減函數、線性函數等，如果用戶還需要考慮更多的因素，只需要在指數項上增加新的映射函數即可。
[0018] 本發明步驟2具體包括以下步驟：
[0019] 步驟2-1:從步驟1所獲取的資料庫中抽取數據組成訓練集X，用於訓練哈希函數，訓練集的大小η目

【權利要求】
1. 一種大數據分析系統，其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模塊；用於對關鍵信息進行預處理的數據預處理模塊；用於將預處理後的數據抽象為網絡圖模型的網絡構建模塊；用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊；用於輸出發現結果的結果輸出模塊。
2. -種大數據分析方法，其特徵在於包括以下步驟：步驟1 :通過數據分析和提取模塊提取關鍵信息，所述關鍵信息為個體之間的通話記錄數據；步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理；步驟3 :構建網絡圖模型，將每個個體抽象為網絡圖模型中的一個節點，將個體之間的聯繫抽象為網絡圖中的邊，使用步驟1中提取的數據，用矩陣的形式存儲網絡圖模型；步驟4:設置分析參數以及運算閾值，分析參數包括個體的數量，運算閾值用於限定輸出個體數量；步驟5 :運行發現算法，對網絡圖模進行劃分並進一步分析運算；步驟6 :輸出運算結果。
3. 根據權利要求2所述的一種大數據分析方法，其特徵在於步驟1具體通過以下步驟實現：步驟1-1 :對每個個體分配唯一的id，該id之後會對應網絡圖中的一個節點；步驟1-2 :對於任意的兩個個體i和j之間，如果存在通信記錄，那麼以通信時長、通信次數、通信頻率數據為參數計算i和j之間的聯繫權重係數，計算公式如下： _
，其中Wu表示權重值，〇⑴，0 (n)，y(f)分別是通話時長t，通話次數n，通話頻率f的函數，函數的具體形式根據具體的應用場景以及用戶的經驗確定，可以選擇指數衰減函數、線性函數等，如果用戶還需要考慮更多的因素，只需要在指數項上增加新的映射函數即可。
4. 根據權利要求2所述的一種大數據分析方法，其特徵在於步驟2具體包括以下步驟：步驟2-1 :從步驟1所獲取的資料庫中抽取數據組成訓練集X，用於
，其中X為訓練集，B為基空間，B的每一個向量均為訓練集X中訓練出來的基向量，S是X被投影在基空間B上的低維實數值，A:和X2是通過十折交叉驗證方法取得的可調參數，Wi,」是X中兩個實例XX」之間的歐式距離在高斯核上的投影，SS」是矩陣S中的兩個向量，Bi>j是矩陣B中第i行和第j列的元素，i= 1，2,3,……，n為表示實例的記號， j= 1,2,3, ......k表示基向量的標號，n是實例的個數，k是基向量的個數，s> 0表示S 中每個元素非負；步驟2-3 :對資料庫中還沒得到二進位代碼的實例進行二進位編碼，過稱謂對每一個實例X，通過s= (B'B+2I)、'x得到x的低維實數值，然後通過哈希函數得到它的低維二進位代碼，其中B是步驟2-2中定義的基空間，I是跟B同維度的單位矩陣，對整個資料庫進行編碼，完成數據的預處理。
5.根據權利要求2所述的一種大數據分析方法，其特徵在於步驟3中網絡圖模型可以表示為G= (V，E)，其中G表示網絡圖，V表示圖中所有點的集合，E表示圖中所有邊的集合，E中的每條邊帶有權重，邊權數存儲在一個單獨的向量列表裡。
【文檔編號】G06F19/00GK104484566SQ201410783566
【公開日】2015年4月1日申請日期:2014年12月16日優先權日:2014年12月16日
【發明者】殷晉, 章偉申請人:蕪湖樂銳思信息諮詢有限公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

大數據分析系統及方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法