基於圖形處理單元的自組織映射神經網絡聚類方法及系統的製作方法

2023-09-19 00:57:55 1

基於圖形處理單元的自組織映射神經網絡聚類方法及系統的製作方法
【專利摘要】本發明涉及一種基於圖形處理單元的並行化自組織映射神經網絡的聚類方法及系統，相對傳統的串行化聚類方法,本發明通過算法的並行化和基於圖形處理單元的並行加速系統，能更快的實現大規模數據的聚類。本發明主要涉及兩方面的內容：(1)首先，針對圖形處理單元的高並行計算能力的特點，設計了一種並行化自組織映射神經網絡的聚類方法，該方法通過並行化統計文檔的關鍵詞詞頻得到詞頻矩陣，通過並行化計算文本的特徵向量生成數據集的特徵矩陣，通過並行化的自組織映射神經網絡聚類得到海量數據對象的簇結構；(2)其次，利用圖形處理單元(GPU)和中央處理器(CPU)之間的計算能力的互補性,設計了一套基於CPU/GPU協作框架的並行化文本聚類系統。
【專利說明】基於圖形處理單元的自組織映射神經網絡聚類方法及系統
【技術領域】
[0001]本發明涉及一種並行化的自組織映射神經網絡聚類方法及系統，尤其涉及一種基於圖形處理單元的並行化自組織映射神經網絡聚類方法及系統。
【背景技術】
[0002]目前，隨著計算機的普及，網際網路的用戶數持續不斷的增長，網際網路用戶在網絡上每天產生大量的信息。同時，一些具有大量用戶的社會化媒體系統中，每天也有大量的新數據增加。數據挖掘和機器學習算法為我們從這些數據中提取有價值的信息提供了可行方法，但是大部分算法的學習流程複雜，需要迭代學習，處理海量數據所花費的時間較長。雖然有用信息被提取，但是信息可能已經不具有時效性，這就需要開發更快的算法或者採用更高性能的運算設備。採用高性能機器或CPU集群的方式固然能加快算法的運算過程，但是企業需要承擔巨額的資金投入。目前，多核技術已經發展的相對成熟，圖形處理單元(GPU)的數值計算性能遠遠超過了 CPU的性能，利用GPU的多核特性，充分發掘算法的並行能力成為現今計算機科學的研究熱點。
[0003]在數據挖掘領域，已經有部分數據挖掘算法通過改進使其能夠運行於圖形處理單元設備上，並取得了至少5-6倍的加速，有的甚至能達到20-30倍的加速效果。數據挖掘領域中一個重要的研究方向就是針對文本數據的挖掘，而文本聚類在文本挖掘領域中扮演著重要角色。聚類是依據數據的特徵，根據數據之間的相似程度，聚集成不同的文本簇。根據統計，人類社會有80%的信息以文本為載體形式存在。文本聚類技術可以對文本數據有效組織、摘要和導航。
[0004]SOM網絡是通過模擬人腦對外界信息處理的特點而設計的一種人工神經網絡，是一種無監督的學習方法，非常適合於處理高維文本數據的聚類問題。SOM(Self-OrganizingMapping，簡稱「SOM」)網絡無須用戶指定聚類簇數，網絡會在訓練過程中自適應的進行聚類，對離群點噪音數據不敏感，具有很強的抗噪音能力。SOM根據訓練樣本中的樣本分布規律進行聚類，對數據的形狀不敏感。然而現有的SOM算法處理高維數據具有網絡收斂速度慢，聚類時間長的特點。
[0005]文本聚類是數據挖掘技術中的一種，把文本文檔資源按照指定的相似性標準劃分為若干個簇，使得每一簇內部儘可能的相同，不同簇之間相似性儘可能小。文本聚類主要是依據著名的聚類假設:同類的文檔相似度較大，而不同類的文檔相似度較小。作為一種無監督的機器學習方法，聚類由於不需要預先的訓練過程，以及不需要預先對文檔手工標註類另IJ，因此具有一定的靈活性和較高的自動化處理能力，已經成為對文本信息進行有效地組織、摘要和導航的重要手段，為越來越多的研究人員所關注。

【發明內容】

[0006]本發明解決的技術問題是:構建一種基於圖形處理單元((Graphic ProcessingUnit,圖形處理單元，簡稱「GPU」))的並行化自組織映射神經網絡聚類方法及系統，克服現有技術在文本聚類過程中由於數據量大導致計算速度慢的技術問題。
[0007]本發明的技術方案是:提供一種基於圖形處理單元的並行自組織映射神經網絡聚類方法，包括如下步驟:
[0008]並行關鍵詞詞頻統計:將文本內容進行分詞並得到關鍵詞的集合，並行統計文檔中關鍵詞的頻率，得到詞頻矩陣；
[0009]並行特徵向量計算:把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣，每個特徵向量代表一個文檔。
[0010]並行SOM聚類:根據特徵向量矩陣設計SOM網絡結構，初始化SOM網絡，並行計算輸入樣本與全部輸出神經元權向量距離，比較各個距離的大小，獲取最小距離的最佳神經元J，通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小，然後通過圖形處理單元並行計算網絡誤差率Et，若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T，則SOM網絡訓練結束，否則重新進行新一輪訓練；每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近，把距離相近的輸入特徵向量聚集成同一個簇，形成的簇集合即為最終的聚類結果。
[0011]本發明的進一步技術方案是:統計每篇文檔關鍵詞詞頻的過程相互獨立，本發明為每篇文檔設計一個線程統計詞頻，然後通過圖形處理單元的多線程並行統計。
[0012]本發明的進一步技術方案是:每篇文檔的特徵向量計算過程相互獨立，本發明為每篇文檔設計一個線程計算特徵向量，然後通過圖形處理單元的多線程並發執行。其特徵向量計算採用公式
【權利要求】
1.一種基於圖形處理單元的並行化自組織映射神經網絡聚類方法，包括如下步驟: 並行關鍵詞詞頻統計:將文本內容進行分詞並得到關鍵詞的集合，並行統計文檔中關鍵詞的頻率，得到詞頻矩陣；並行特徵向量計算:把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣，每個特徵向量代表一個文檔；並行SOM聚類:根據特徵向量矩陣設計SOM網絡結構，初始化SOM網絡，並行計算輸入樣本與全部輸出神經元權向量距離，比較各個距離的大小，獲取最小距離的最佳神經元J，通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小，然後通過圖形處理單元並行計算網絡誤差率Et，若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T，則SOM網絡訓練結束，否則重新進行新一輪訓練；每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近，把距離相近的輸入特徵向量聚集成同一個簇，形成的簇集合即為最終的聚類結果。
2.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法，其特徵在於，在獲取文檔的關鍵詞詞頻步驟中，採用基於圖形處理單元的多線程並行統計詞頻。
3.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法，其特徵在於，在並行特徵向量計算步驟中，採用基於圖形處理的的多線程並行計算每個文檔的特徵向量。
4.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法，其特徵在於，輸入特徵向量與每個輸出神經元權向量距離的計算過程相互獨立，採用基於圖形處理的多個線程並行計算輸入特徵向量與每個輸出神經元向量的距離，系統為每個神經元開啟一個線程，採用多線程並行計算。`
5.根據權利要求1所述基於圖形處理單元的自組織映射神經網絡聚類方法，其特徵在於，每個神經元相鄰兩次迭代的權向量誤差的計算過程相互獨立，採用基於圖形處理的多個線程並行計算每個神經元的權向量誤差，系統為每個神經元開啟一個線程，採用多線程並行計算。
6.一種基於圖形處理單元的自組織映射神經網絡聚類系統，其特徵在於，包括硬體部分和軟體部分，硬體部分:採用CPU/GPU協作框架設計，串行執行代碼運行在CPU上，並行執行代碼運行在GPU上，通過GPU提供的數據傳輸方式來交換顯存與內存之間的數據；軟體部分分為三個模塊，包括並行化關鍵詞詞頻統計模塊、並行化特徵向量計算模塊、並行化SOM聚類模塊，單元、計算特徵向量的特徵向量計算單元、進行文本聚類的文本聚類單元，所述並行化關鍵詞詞頻統計模塊將文本內容進行分詞並得到關鍵詞的集合，並行統計文檔中關鍵詞的頻率，得到詞頻矩陣；所述並行化特徵向量計算模塊把關鍵詞詞頻矩陣轉化為對應的特徵向量矩陣，每個特徵向量代表一個文檔；所述並行化SOM聚類模塊根據特徵向量矩陣設計SOM網絡結構，初始化SOM網絡，並行計算輸入樣本與全部輸出神經元權向量距離，比較各個距離的大小，獲取最小距離的最佳神經元J，通過更新最佳神經元、其鄰域內的神經元權向量值、學習率及最佳神經元的鄰域大小，然後通過圖形處理單元並行計算網絡誤差率Et，若網絡誤差率Et〈=目標誤差e或迭代次數t>=訓練最大迭代次數T，則SOM網絡訓練結束，否則重新進行新一輪訓練；每次學習的結果使得最佳匹配神經元的鄰域區域向輸入數據向量值靠近，把距離相近的輸入特徵向量聚集成同一個簇，形成的簇集合即為最終的聚類結果。
7.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統，其特徵在於，所述並行化關鍵詞詞頻統計模塊、所述並行化特徵向量計算模塊以及所述並行化SOM聚類模塊中均設計了若干個核函數來並行加速算法的運行。
8.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統，其特徵在於，在並行關鍵詞詞頻統計模塊中，設計了一個用於關鍵詞詞頻統計的核函數；在並行特徵向量計算模塊中，設計了兩個用於特徵向量計算的核函數和兩個用於特徵向量歸一化的核函數。
9.根據權利要求6所述基於圖形處理單元的並行化自組織映射神經網絡的聚類系統，其特徵在於，在並行SOM聚類模塊中，設計了一個用於計算輸入特徵向量與輸出神經元的距離的核函數，一個用於計算每個神經元相鄰兩次迭代的網絡權向量的誤差的核函數和一個用於規約網絡權向量的誤差的核函數。
【文檔編號】G06F17/30GK103488662SQ201310112420
【公開日】2014年1月1日申請日期:2013年4月1日優先權日:2013年4月1日
【發明者】葉允明, 張金超, 黃曉輝申請人:哈爾濱工業大學深圳研究生院

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於圖形處理單元的自組織映射神經網絡聚類方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法