新四季網

大數據分析系統及方法

2023-04-25 21:40:01 1

大數據分析系統及方法
【專利摘要】本發明涉及信息處理【技術領域】,具體地說是一種複雜度低、計算速度快、查找效率高的大數據分析系統及方法,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡圖模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊;用於輸出發現結果的結果輸出模塊,本發明與現有技術相比,能夠通過快速的處理個體之間的通信數據,完成某一潛在團體的分類、劃定和輸出,具有處理速度快、分析效率高等顯著的優點。
【專利說明】大數據分析系統及方法

【技術領域】:
[0001] 本發明涉及信息處理【技術領域】,具體地說是一種複雜度低、計算速度快、查找效率 高的大數據分析系統及方法。

【背景技術】:
[0002] 大數據技術或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流 軟體工具,在合理的時間內達到汲取、管理、處理並整理成為幫助企業經營決策更積極目的 資訊。大數據計數的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據 進行專業化的處理,換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵在 於提高對數據的"加工能力",通過加工數據實現增值。
[0003] 如何從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中的、事 先不知道的、但有時潛在有用的信息的過程被稱為數據挖掘,顯而易見,數據挖掘時大數據 技術的關鍵。


【發明內容】

[0004] 本發明針對現有技術中存在的缺點和不足,提出了一種複雜度低、計算速度快、查 找效率高的大數據分析系統及方法。
[0005] 本發明通過以下措施達到:
[0006] -種大數據分析系統,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取 模塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡 圖模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊; 用於輸出發現結果的結果輸出模塊。
[0007] 本發明還提出一種大數據分析方法,其特徵在於包括以下步驟:
[0008] 步驟1 :通過數據分析和提取模塊提取關鍵信息,所述關鍵信息為個體之間的通 話記錄數據;
[0009] 步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理;
[0010] 步驟3 :構建網絡圖模型,將每個個體抽象為網絡圖模型中的一個節點,將個體之 間的聯繫抽象為網絡圖中的邊,使用步驟1中提取的數據,用矩陣的形式存儲網絡圖模型;
[0011] 步驟4:設置分析參數以及運算閾值,分析參數包括個體的數量,運算閾值用於限 定輸出個體數量;
[0012] 步驟5 :運行發現算法,對網絡圖模進行劃分並進一步分析運算;
[0013] 步驟6:輸出運算結果。
[0014] 本發明步驟1具體通過以下步驟實現:
[0015] 步驟1-1:對每個個體分配唯一的id,該id之後會對應網絡圖中的一個節點;
[0016] 步驟1-2 :對於任意的兩個個體i和j之間,如果存在通信記錄,那麼以通信時長、 通信次數、通信頻率數據為參數計算i和j之間的聯繫權重係數,計算公式如下:
[0017] Wij= e φω+ 0(η)+γ(?),其中Wij表示權重值,Φ⑴,θ (η),γ (f)分別是通話時長 t,通話次數n,通話頻率f的函數,函數的具體形式根據具體的應用場景以及用戶的經驗確 定,可以選擇指數衰減函數、線性函數等,如果用戶還需要考慮更多的因素,只需要在指數 項上增加新的映射函數即可。
[0018] 本發明步驟2具體包括以下步驟:
[0019] 步驟2-1:從步驟1所獲取的資料庫中抽取數據組成訓練集X,用於訓練哈希函數, 訓練集的大小η目

【權利要求】
1. 一種大數據分析系統,其特徵在於設有用於完成關鍵信息抽取的數據分析和提取模 塊;用於對關鍵信息進行預處理的數據預處理模塊;用於將預處理後的數據抽象為網絡圖 模型的網絡構建模塊;用於對網絡圖模型進行劃分並進一步分析運算的運算發現模塊;用 於輸出發現結果的結果輸出模塊。
2. -種大數據分析方法,其特徵在於包括以下步驟: 步驟1 :通過數據分析和提取模塊提取關鍵信息,所述關鍵信息為個體之間的通話記 錄數據; 步驟2 :通過數據預處理模塊將步驟1所獲得的關鍵信息進行預處理; 步驟3 :構建網絡圖模型,將每個個體抽象為網絡圖模型中的一個節點,將個體之間的 聯繫抽象為網絡圖中的邊,使用步驟1中提取的數據,用矩陣的形式存儲網絡圖模型; 步驟4:設置分析參數以及運算閾值,分析參數包括個體的數量,運算閾值用於限定輸 出個體數量; 步驟5 :運行發現算法,對網絡圖模進行劃分並進一步分析運算; 步驟6 :輸出運算結果。
3. 根據權利要求2所述的一種大數據分析方法,其特徵在於步驟1具體通過以下步驟 實現: 步驟1-1 :對每個個體分配唯一的id,該id之後會對應網絡圖中的一個節點; 步驟1-2 :對於任意的兩個個體i和j之間,如果存在通信記錄,那麼以通信時長、通信 次數、通信頻率數據為參數計算i和j之間的聯繫權重係數,計算公式如下: _
,其中Wu表示權重值,〇⑴,0 (n),y(f)分別是通話時長t,通話 次數n,通話頻率f的函數,函數的具體形式根據具體的應用場景以及用戶的經驗確定,可 以選擇指數衰減函數、線性函數等,如果用戶還需要考慮更多的因素,只需要在指數項上增 加新的映射函數即可。
4. 根據權利要求2所述的一種大數據分析方法,其特徵在於步驟2具體包括以下步 驟: 步驟2-1 :從步驟1所獲取的資料庫中抽取數據組成訓練集X,用於
,其中X為訓練集,B為基空間,B的每一個向量均為訓練集X中訓練出來的基向量,S是X被投影在基空間B上的低維實數值,A:和X2是通過十折交叉驗證方法取得的可調參 數,Wi,」是X中兩個實例XX」之間的歐式距離在高斯核上的投影,SS」是矩陣S中的 兩個向量,Bi>j是矩陣B中第i行和第j列的元素,i= 1,2,3,……,n為表示實例的記號, j= 1,2,3, ......k表示基向量的標號,n是實例的個數,k是基向量的個數,s> 0表示S 中每個元素非負; 步驟2-3 :對資料庫中還沒得到二進位代碼的實例進行二進位編碼,過稱謂對每一個 實例X,通過s= (B'B+2I)、'x得到x的低維實數值,然後通過哈希函數得到它的低維二 進位代碼,其中B是步驟2-2中定義的基空間,I是跟B同維度的單位矩陣,對整個資料庫 進行編碼,完成數據的預處理。
5.根據權利要求2所述的一種大數據分析方法,其特徵在於步驟3中網絡圖模型可以 表示為G= (V,E),其中G表示網絡圖,V表示圖中所有點的集合,E表示圖中所有邊的集 合,E中的每條邊帶有權重,邊權數存儲在一個單獨的向量列表裡。
【文檔編號】G06F19/00GK104484566SQ201410783566
【公開日】2015年4月1日 申請日期:2014年12月16日 優先權日:2014年12月16日
【發明者】殷晉, 章偉 申請人:蕪湖樂銳思信息諮詢有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀