新四季網

基於圖形處理單元的自組織映射神經網絡聚類方法及系統的製作方法

2023-09-19 00:57:55 1

基於圖形處理單元的自組織映射神經網絡聚類方法及系統的製作方法
【專利摘要】本發明涉及一種基於圖形處理單元的並行化自組織映射神經網絡的聚類方法及系統,相對傳統的串行化聚類方法,本發明通過算法的並行化和基於圖形處理單元的並行加速系統,能更快的實現大規模數據的聚類。本發明主要涉及兩方面的內容:(1)首先,針對圖形處理單元的高並行計算能力的特點,設計了一種並行化自組織映射神經網絡的聚類方法,該方法通過並行化統計文檔的關鍵詞詞頻得到詞頻矩陣,通過並行化計算文本的特徵向量生成數據集的特徵矩陣,通過並行化的自組織映射神經網絡聚類得到海量數據對象的簇結構;(2)其次,利用圖形處理單元(GPU)和中央處理器(CPU)之間的計算能力的互補性,設計了一套基於CPU/GPU協作框架的並行化文本聚類系統。
【專利說明】基於圖形處理單元的自組織映射神經網絡聚類方法及系統
【技術領域】
[0001]本發明涉及一種並行化的自組織映射神經網絡聚類方法及系統,尤其涉及一種基於圖形處理單元的並行化自組織映射神經網絡聚類方法及系統。
【背景技術】
[0002]目前,隨著計算機的普及,網際網路的用戶數持續不斷的增長,網際網路用戶在網絡上每天產生大量的信息。同時,一些具有大量用戶的社會化媒體系統中,每天也有大量的新數據增加。數據挖掘和機器學習算法為我們從這些數據中提取有價值的信息提供了可行方法,但是大部分算法的學習流程複雜,需要迭代學習,處理海量數據所花費的時間較長。雖然有用信息被提取,但是信息可能已經不具有時效性,這就需要開發更快的算法或者採用更高性能的運算設備。採用高性能機器或CPU集群的方式固然能加快算法的運算過程,但是企業需要承擔巨額的資金投入。目前,多核技術已經發展的相對成熟,圖形處理單元(GPU)的數值計算性能遠遠超過了 CPU的性能,利用GPU的多核特性,充分發掘算法的並行能力成為現今計算機科學的研究熱點。
[0003]在數據挖掘領域,已經有部分數據挖掘算法通過改進使其能夠運行於圖形處理單元設備上,並取得了至少5-6倍的加速,有的甚至能達到20-30倍的加速效果。數據挖掘領域中一個重要的研究方向就是針對文本數據的挖掘,而文本聚類在文本挖掘領域中扮演著重要角色。聚類是依據數據的特徵,根據數據之間的相似程度,聚集成不同的文本簇。根據統計,人類社會有80%的信息以文本為載體形式存在。文本聚類技術可以對文本數據有效組織、摘要和導航。
[0004]SOM網絡是通過模擬人腦對外界信息處理的特點而設計的一種人工神經網絡,是一種無監督的學習方法,非常適合於處理高維文本數據的聚類問題。SOM(Self-OrganizingMapping,簡稱「SOM」)網絡無須用戶指定聚類簇數,網絡會在訓練過程中自適應的進行聚類,對離群點噪音數據不敏感,具有很強的抗噪音能力。SOM根據訓練樣本中的樣本分布規律進行聚類,對數據的形狀不敏感。然而現有的SOM算法處理高維數據具有網絡收斂速度慢,聚類時間長的特點。
[0005]文本聚類是數據挖掘技術中的一種,把文本文檔資源按照指定的相似性標準劃分為若干個簇,使得每一簇內部儘可能的相同,不同簇之間相似性儘可能小。文本聚類主要是依據著名的聚類假設:同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監督的機器學習方法,聚類由於不需要預先的訓練過程,以及不需要預先對文檔手工標註類另IJ,因此具有一定的靈活性和較高的自動化處理能力,已經成為對文本信息進行有效地組織、摘要和導航的重要手段,為越來越多的研究人員所關注。

【發明內容】

[0006]本發明解決的技術問題是:構建一種基於圖形處理單元((Graphic ProcessingUnit,圖形處理單元,簡稱「GPU」))的並行化自組織映射神經網絡聚類方法及系統,克服現有技術在文本聚類過程中由於數據量大導致計算速度慢的技術問題。
[0007]本發明的技術方案是:提供一種基於圖形處理單元的並行自組織映射神經網絡聚類方法,包括如下步驟:
[0008]並行關鍵詞詞頻統計:將文本內容進行分詞並得到關鍵詞的集合,並行統計文檔中關鍵詞的頻率,得到詞頻矩陣;
[0009]並行特徵向量計算:把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣,每個特徵向量代表一個文檔。
[0010]並行SOM聚類:根據特徵向量矩陣設計SOM網絡結構,初始化SOM網絡,並行計算輸入樣本與全部輸出神經元權向量距離,比較各個距離的大小,獲取最小距離的最佳神經元J,通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小,然後通過圖形處理單元並行計算網絡誤差率Et,若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T,則SOM網絡訓練結束,否則重新進行新一輪訓練;每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近,把距離相近的輸入特徵向量聚集成同一個簇,形成的簇集合即為最終的聚類結果。
[0011]本發明的進一步技術方案是:統計每篇文檔關鍵詞詞頻的過程相互獨立,本發明為每篇文檔設計一個線程統計詞頻,然後通過圖形處理單元的多線程並行統計。
[0012]本發明的進一步技術方案是:每篇文檔的特徵向量計算過程相互獨立,本發明為每篇文檔設計一個線程計算特徵向量,然後通過圖形處理單元的多線程並發執行。其特徵向量計算採用公式
【權利要求】
1.一種基於圖形處理單元的並行化自組織映射神經網絡聚類方法,包括如下步驟: 並行關鍵詞詞頻統計:將文本內容進行分詞並得到關鍵詞的集合,並行統計文檔中關鍵詞的頻率,得到詞頻矩陣; 並行特徵向量計算:把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣,每個特徵向量代表一個文檔; 並行SOM聚類:根據特徵向量矩陣設計SOM網絡結構,初始化SOM網絡,並行計算輸入樣本與全部輸出神經元權向量距離,比較各個距離的大小,獲取最小距離的最佳神經元J,通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小,然後通過圖形處理單元並行計算網絡誤差率Et,若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T,則SOM網絡訓練結束,否則重新進行新一輪訓練;每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近,把距離相近的輸入特徵向量聚集成同一個簇,形成的簇集合即為最終的聚類結果。
2.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法,其特徵在於,在獲取文檔的關鍵詞詞頻步驟中,採用基於圖形處理單元的多線程並行統計詞頻。
3.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法,其特徵在於,在並行特徵向量計算步驟中,採用基於圖形處理的的多線程並行計算每個文檔的特徵向量。
4.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法,其特徵在於,輸入特徵向量與每個輸出神經元權向量距離的計算過程相互獨立,採用基於圖形處理的多個線程並行計算輸入特徵向量與每個輸出神經元向量的距離,系統為每個神經元開啟一個線程,採用多線程並行計算。`
5.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法,其特徵在於,每個神經元相鄰兩次迭代的權向量誤差的計算過程相互獨立,採用基於圖形處理的多個線程並行計算每個神經元的權向量誤差,系統為每個神經元開啟一個線程,採用多線程並行計算。
6.一種基於圖形處理單元的自組織映射神經網絡聚類系統,其特徵在於,包括硬體部分和軟體部分,硬體部分:採用CPU/GPU協作框架設計,串行執行代碼運行在CPU上,並行執行代碼運行在GPU上,通過GPU提供的數據傳輸方式來交換顯存與內存之間的數據;軟體部分分為三個模塊,包括並行化關鍵詞詞頻統計模塊、並行化特徵向量計算模塊、並行化SOM聚類模塊,單元、計算特徵向量的特徵向量計算單元、進行文本聚類的文本聚類單元,所述並行化關鍵詞詞頻統計模塊將文本內容進行分詞並得到關鍵詞的集合,並行統計文檔中關鍵詞的頻率,得到詞頻矩陣;所述並行化特徵向量計算模塊把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣,每個特徵向量代表一個文檔;所述並行化SOM聚類模塊根據特徵向量矩陣設計SOM網絡結構,初始化SOM網絡,並行計算輸入樣本與全部輸出神經元權向量距離,比較各個距離的大小,獲取最小距離的最佳神經元J,通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小,然後通過圖形處理單元並行計算網絡誤差率Et,若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T,則SOM網絡訓練結束,否則重新進行新一輪訓練;每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近,把距離相近的輸入特徵向量聚集成同一個簇,形成的簇集合即為最終的聚類結果。
7.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統,其特徵在於,所述並行化關鍵詞詞頻統計模塊、所述並行化特徵向量計算模塊以及所述並行化SOM聚類模塊中均設計了若干個核函數來並行加速算法的運行。
8.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統,其特徵在於,在並行關鍵詞詞頻統計模塊中,設計了一個用於關鍵詞詞頻統計的核函數;在並行特徵向量計算模塊中,設計了兩個用於特徵向量計算的核函數和兩個用於特徵向量歸一化的核函數。
9.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統,其特徵在於,在並行SOM聚類模塊中,設計了一個用於計算輸入特徵向量與輸出神經元的距離的核函數,一個用於計算每個神經元相鄰兩次迭代的網絡權向量的誤差的核函數和一個用於規約網絡權向量的誤差的核函數。
【文檔編號】G06F17/30GK103488662SQ201310112420
【公開日】2014年1月1日 申請日期:2013年4月1日 優先權日:2013年4月1日
【發明者】葉允明, 張金超, 黃曉輝 申請人:哈爾濱工業大學深圳研究生院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀