新四季網

基於高維空間分類器的神經網絡結構設計方法

2023-05-25 19:49:51

專利名稱:基於高維空間分類器的神經網絡結構設計方法
技術領域:
本發明涉及一種基於高維空間分類器的神經網絡結構設計方法,該方法可應用於 模式識別、數據挖掘、圖像處理等領域。
背景技術:
在實際生活中,常會遇到大量的高維、非線性數據需要進行分類處理,例如人臉識 別、語音識別等,因此分類器結構的設計是分類處理這些數據的關鍵所在。迄今為止,關於 高維空間分類器結構設計的研究理論及研究成果很多,有的是基於線性可分原則的,如,主 成分分析、PCA等;有的是基於非線性可分原則的,如核理論,流形學習等。但是不管是哪一 種方法,都普遍認為高維空間分類器的結構與分類數據的內在結構有著本質聯繫,它們總 是以一種共生的方式協同工作。如神經網絡作為分類器進行設計時,預先根據樣本集的性 質和關係,將樣本空間分為幾大類(稱為樣本子空間),再將其直接映射到網絡分類器的隱 節點層設計上,可以得到緊緻的網絡分類器結構,並達到較好的分類效果。由於對高維及非 線性的數據集來說,神經網絡分類器可以達到較好的分類效果,因此,目前關於神經網絡高 維分類器結構設計的研究較多,如Z. Uykan利用無監督聚類對數據進行聚類分析,來確定 徑向基網絡的隱含層節點數目;還有W. Pedryez利用模糊均值聚類法對不完備數據進行聚 類分析,並將分析結果映射到徑向基網絡的隱含層節點數目上;上述研究都不僅得到了較 為緊緻的網絡分類器結構,並且對高維、非線性數據也獲得了較好的分類效果。上述方法都是以數據集的內在結構作為先驗知識,來指導高維空間分類器的結構 設計。雖然對高維數據而言取得了一些較好的分類效果,但這種簡單的、通過聚類的方法來 獲取先驗知識的方法,對那些擁有不同對象的數據集來說具有一定的效用。而對於同一對 象來說,所獲得的數據集的內在結構是不完備的,以此來指導分類器結構的設計也就缺乏 說服力。傳統的分類器設計方法是基於幾何學或是統計學的,如今一種新的、基於感知流形 的方法一流形學習法,以一種較新的途徑更加充分的挖掘數據集的本質特徵,以獲得更 加準確的數據集內在結構。從流形學習的角度出發,認為很多數據集是偽高維的,尤其是對同一對象數據集 而言,包含上千個特徵的數據集可以描述為幾個潛在參數的函數。也就是說,同一對象的數 據集可以組成高維空間的一個流形,其本質特徵通常是由幾個少數的隱含特徵所決定的, 稱為「低維本徵空間」。一般情況下,這幾個少數的隱含特徵,即低維本徵空間是未知的,但 是在解決分類和識別這類問題時,低維本徵空間可以直接對應數據集的內在結構空間,將 其映射到分類器的隱含節點上,可以獲得較好的分類效果。流形學習方法就是試圖確定這 些參數,並發現數據集的低維空間表示。

發明內容
本發明的目的在於克服傳統分類器設計方法的不足,將流形學習方法引入到高維 空間分類器的設計當中,以一個全新的角度分析數據集的本質特徵,充分挖掘其內在結構,並以此作為先驗知識,指導分類器的結構設計,從而獲得更加良好的分類效果。並且,本發 明以神經網絡分類器作為高維空間分類器的代表,說明流行學習方法在設計神經網絡分類 器結構過程中的應用原理與方法。具體技術方案如下—種基於高維空間分類器的神經網絡結構設計方法,其特徵是步驟包括,先估計 出低維本徵維數空間D,再根據D值進行神經網絡分類器的設計,將其隱節點按照D值大小 進行分組設計,所得出的網絡結構既滿足結構緊緻的要求,並且對高維空間數據分類來說 也具有較高的分類性能;所述估算地位本徵維數空間D的方法,其步驟包括1)為各個系統參數賦初值鄰域值k — 1,嵌入維數d — 1,Sammon係數一0 ;2)固定嵌入維數d,改變鄰接點k的大小,並執行LLE流形學習算法,根據Sammon
I N「《-《T
係數定義公式:Ε = ^^Σ 「 d* 11得到Sammon係數值;並繪製Sammon係數隨鄰域值
i<J
k改變而變化的曲線圖;3)判斷K-Sammon係數圖的曲線改變方式是否已固定,即當d達到某一固定值D 後,其變化趨勢已與嵌入維數d的取值大小無關,無論d再如何增加,K-Sammon係數圖的曲 線變化趨勢保持恆定不變;4)如果是已經固定,則終止並估計出低維本徵維數空間D ;否則,d+Ι,並轉向步驟 2)。本發明優點或積極的效果如下1、研究方法上的更新,將流形學習方法引入高維空間分類器的結構設計問題,發 揮了機器學習的優越性,有效利用了樣本集本身的內在的知識,避免了分類器結構設計過 程中過多依賴人為因素的問題。能夠根據要求設計出有效而緊緻的網絡結構。2、具有一定的通用性,採用本方法,面對不同類型的同一對象樣本分類問題,都能 迅速設計出高效的網絡結構。3、應用面較廣,可以應用在圖像識別、語音識別、數據挖掘、機器視覺等方面。本方法從一個新的角度上分析了高維、非線性樣本集的神經網絡分類器結構設計 的問題。提出應用機器學習的新方法——流形學習來解決該問題的新思路。充分挖掘了樣 本集本身的內在知識,並將這些知識映射到高維空間分類器的結構設計上,如此設計出的 分類器結構必定優於根據人為主觀而設計出的分類器結構。本方法首次通過Sammon協強係數來觀察嵌入維數與鄰接點大小兩者之間的相互 關係與變化,從而進一步估計出同一對象樣本集中的低維參數空間維數,並從理論上證明 了低維本徵維數空間維數在神經網絡結構設計中的具有指導意義。實用新型本方法使得在神經網絡分類器的結構設計在針對高維、非線性的實際數 據分類的應用中,沒有神經網絡分類器知識和實際工作經驗的技術人員也能夠在客觀的實 驗數據指導下,設計出較為緊緻而準確的神經網絡分類器結構。


圖1是本發明流程示意圖。圖2是本圖1中步驟1的流程示意圖。
具體實施例方式為了更了解本發明的技術內容,特舉具體實施例並配合所附圖式說明如下。下面從原理角度,對本方法的設計思想作進一步闡述(1)高維空間分類器的結構設計與泛化性能提高高維空間分類器自從提出至今已有許多年的歷史,其中分類器的泛化性能的研究 一直是智能信息處理領域的重要研究課題。以神經網絡分類器為代表的高維空間分類器最 受研究者關注,其(分類器的)泛化能力是指學習後的神經網絡對測試樣本或工作樣本做 出正確反應的能力。沒有泛化能力的分類器沒有任何使用價值,故此,泛化能力的研究已成 為近年來國際上十分關注的理論問題。許多研究者對神經網絡分類器的結構設計與樣本集之間的內在結構關係做了大 量有益的探索,比如有理論證明預先根據樣本的性質和關係將樣本空間分為幾大類(樣 本子空間),並將這幾大類的關係直接映射到網絡的隱節點的分組設計上,可以獲得合理而 緊緻的網絡結構。其中最值得一提的是M. Gori和A. Tesi將神經網絡模塊化編程思想引入 到前向網絡的結構設計中,提出預先根據樣本(問題)的性質和關係將樣本空間分為幾大 類,同時將隱節點神經元也進行分組,每一組分別對應樣本空間中的某一類。這樣從根本上 避免了同一類樣本由於差異性不大而導致學習過程權值調整量過小,算法收斂變得異常困 難的問題。同時,又由於通過對隱節點層分組,最終獲得了具有緊緻結構的神經網絡,也使 得網絡地學習時間變短,學習速度提高,分類結果較好。M. Gori和A. Tesi提出的確保神經網絡分類器分類效果有效提高的網絡結構設計 準則是假設所分模式是線性可分的,若網絡結構採用單個隱節點層結構,且網絡的輸入層 與隱節點層為全連接方式;進一步假設學習樣本的類別數為C,則可將隱節點層劃分為C個 子節點組,並且各個子節點組只與其相應的輸出層節點相連接。該準則雖然被嚴格限制在 模式線性可分的前提下使用,但無論是從理論分析上,還是實際應用中對非線性模式的分 類問題都具有十分重要的指導意義。M. Gori和A. Tesi提出的上述設計準則中,網絡結構的隱節點子層只與相應的輸 出層連接的設計準則,簡稱隱節點層分組設計準則。這在某種程度上體現了 預先根據樣本 的性質和關係將樣本空間分為幾大類(樣本子空間),並將這幾大類的關係直接映射到網 絡的隱節點層的分組設計上,可以獲得合理而緊緻的網絡結構。因而得到了大多數研究者 的認可,並在實際應用中反覆得到了驗證。但是,該準則在解決實際的分類問題時,仍然存 在著一定的問題。(簡述一下存在的問題是什麼)(2)神經網絡分類器的結構設計的關鍵問題——隱節點層的分組隱節點層分組設計準則,其關鍵所在是預先根據樣本的性質和關係將樣本空間 分為幾大類,並將這幾大類的關係直接映射到網絡的隱節點層的分組設計上。但是如何才能 預先根據樣本(問題)的性質和關係將樣本空間分為幾大類呢?實際應用中面臨兩種情況。情況一不同對象的樣本集,針對這類情況,傳統的方法大多採用對樣本進行聚類的方法,如有的利用無監督聚類對輸入樣本進行聚類來確定徑向基網絡的隱含層的節點 數;有的利用模糊均值聚類來對不完備樣本進行聚類,以確定徑向基網絡的隱節點數。情況二 同一對象的樣本集,對這類情況,大部分的應用結果證明,如果依然採用 這種簡單的、通過聚類的方法來對樣本空間進行劃分,並以此作為確定網絡結構中分組設 計的依據是不完備的。同一對象的樣本集結構又分為兩種情況一種是高維線性結構,另一種是高維非 線性結構。關於具有線性結構的同一對象的樣本集的分類問題,對設計人員來說並不是太 難的問題。而針對具有同一對象的非線性結構樣本集,發現其內在的本質結構,獲取其內含 的先驗知識,並以此作為分類器結構設計的指導原則卻是一個經典難題。但是,如果從感知角度出發,自然界中任何欲被認識的兩個同一事物之間至少存 在一個漸變過程,而在這個漸變過程中間的各事物是屬於同一類的,即在特徵空間,同一對 象的樣本點之間存在著連續性規律。以同一對象的圖像信息為例,在不同距離,不同方向, 或在不同姿態和光照強度下,同一對象能夠形成多種不同的圖像,一個對象的所有圖像的 集合可以看作是以位置、尺度、姿態、光照等為參數的一個高維空間流形。流形是感知的基 礎,人腦能夠通過用流形的方法表示對外界對象的感知。也就是說,通過流形學習的方法對 樣本集進行一定的數據分析,從中獲得樣本集中所蘊含的先驗知識,這種手段更加接近人 類獲取知識的有效途徑。(3)低維本徵維數空間與隱節點層分組一一對應如果將具有非線性結構的同一對象樣本集中每個樣本看成是高維空間的一個點, 則在不同方向上採樣的所有樣本集就是高維空間的一個流形。同時,又由於同一對象在 不同參數下(不同光照或姿態)的數字圖像組成的流形,其本質特徵通常是由少數幾個 隱含變量點所決定的,即「低維本徵維數空間」(Parameter space in the low-dimension manifold),故分類這種群體活動實際上是被限制在低維空間的光滑流形上的。「低維本徵維數空間維數」與「神經網絡隱節點層分組數目,,表面看起來是兩個不 同的問題。但是,「低維本徵維數空間維數」的定義暗示著這樣一個概念在分類過程中, 樣本集的「低維參數空間維數」與樣本子空間的劃分是一一對應的。即樣本子空間的劃分 是以低維參數空間維數大小為依據的,同理,按照上述的M. Gori和A. Tesi的隱節點層分 組設計準則,「神經網絡隱節點層分組數目」確定也是以高維樣本集的樣本子空間數目為依 據的,隱節點層的分組數目可設計為樣本集的分類數目,即樣本子空間的數目。由此可知, 「低維本徵維數空間維數」與「神經網絡隱節點數目,,是一一對應的。但是,一般情況下,低 維本徵維數空間是不可知的。通過流形學習探索樣本集中潛在的低維本徵維數空間的方法 是非常有效的方法之一,但是利用流形學習方法計算低維參數空間維數是需要滿足特定條 件的。例如,Isomap是一種有效的非線性方法,在一些實驗中利用剩餘方差和維數之間的 關係可以有效發現潛在的低維參數空間維數大小,但是,算法的前提條件是假設光滑流形M 及其參數空間Rd的子集之間存在等距映射。而在對LLE方法的研究中人們發現,鄰域大小 和嵌入維數兩個參數值都扮演了非常重要的角色,兩者之間相互影響,相互制約。(4)利用低維本徵維數空間設計網絡結構的原理流形學習的目的就是要發現高維數據集分布的內在規律,LLE是一種依賴於局部 線性的流形學習算法,它的待定參數很少,一個是近鄰點值k。近鄰點值k的大小反映了用
6若干個近鄰點的線性組合去逼近低維流形上某個點的程度,近鄰點過少時,由於逼近程度 太低而顯得毫無意義;反之,則產生不必要的冗餘而使得計算代價過高。因此,一個適中的 k值就顯得非常重要。在LLE流形學習算法中的另一個待定參數就是嵌入維數d,同理,如果嵌入維數d 過低,低維流形的局部結構與高維流形的局部結構間差異也會過大,而使得局部幾何結構 在降維過程中不能得到很好的保護;反之,則降維的意義沒有得到很好的體現。因此,近鄰點值k和嵌入維數d在LLE流形學習算法中都有著舉足輕重的意義,同 時,它們之間又相互影響,相互制約。然而,在實際應用中,這兩個參數都是人為設定的,帶 有很大程度上的主觀性,而缺乏一定的客觀性和合理性。為此,本發明引入Sammon係數作為衡量二者(近鄰點值k和嵌入維數d)取值標 準的判斷,並通過二者有機的結合,從而獲得真正意義上的低維參數空間大小。Sammon係數 是一項關于衡量N個數據點從L空間轉換到d空間過程中,點之間幾何結構變形程度大小 的標準。Sammon係數定義如下所示
權利要求
一種基於高維空間分類器的神經網絡結構設計方法,其特徵是步驟包括,先估計出低維本徵維數空間D,再根據D值進行神經網絡分類器的設計,將其隱節點按照D值大小進行分組設計,所得出的網絡結構既滿足結構緊緻的要求,並且對高維空間數據分類來說也具有較高的分類性能;所述估算地位本徵維數空間D的方法,其步驟包括1)為各個系統參數賦初值鄰域值k←1,嵌入維數d←1,Sammon係數←0;2)固定嵌入維數d,改變鄰接點k的大小,並執行LLE流形學習算法,根據Sammon係數定義公式得到Sammon係數值E;並繪製Sammon係數隨鄰域值k改變而變化的曲線圖K Sammon係數圖;式中,表示n維空間裡i點與j點之間的距離;dij表示m維空間裡i點與j點之間的距離;3)判斷K Sammon係數圖的曲線改變方式是否已固定,即當d達到某一固定值D後,其變化趨勢已與嵌入維數d的取值大小無關,無論d再如何增加,K Sammon係數圖的曲線變化趨勢保持恆定不變;4)如果是已經固定,則終止並估計出低維本徵維數空間D;否則,d+1,並轉向步驟2)。FDA0000030561230000011.tif,FDA0000030561230000012.tif
2.根據權利要求1所述的基於高維空間分類器的神經網絡結構設計方法,其特徵是對 於所述K-Sammon係數圖是,在鄰域值k和嵌入維數值d同時改變的情況下,以Sammon係數 為縱坐標,鄰域值k為橫坐標,在固定嵌入維數d的前提條件下,分析縱坐標隨著橫坐標的 從小到大改變而改變的情況;每一個對象的K-Sammon係數圖,從左到右伴隨著嵌入維數d由小到大改變,Sammon系 數隨鄰域值k的改變而改變的過程開始逐漸呈現出一定的規律性,反映出當嵌入維數達 到某一固定值的時候,鄰接點的大小對Sammon係數的影響呈現固定趨勢,具體表現為1)當鄰域值k取值較小時,Sammon係數有個陡降的過程;這表明當鄰域點取得過少時, 對某一點的逼近程度較低,所以所產生的誤差較大;而隨著鄰域值k的不斷增大,逼近越來 越接近真實情況,所以Sammon係數的變化趨於減小而平緩;2)當嵌入維數d取值較小的時候,Sammon係數隨著鄰域值k的不斷增大存在上升的趨 勢,甚至發散;這是由於當嵌入維數過低,導致幾何結構變形也過大的緣故,故Sammon係數 出現上升和不穩定的趨勢;鄰域值k 一旦達到某一固定值後,Sammon係數的變化趨勢呈現 下降並穩定不變的狀態,即其變化趨勢已與嵌入維數d的取值大小無關,這一固定值即為 「低維本徵維數空間」,它代表了樣本空間的隱含變量大小。
全文摘要
本發明提出一種基於高維空間分類器的神經網絡結構設計方法,步驟包括,先估計出低維本徵維數空間D,再根據D值進行神經網絡分類器的設計,將其隱節點按照D值大小進行分組設計,所得出的網絡結構既滿足結構緊緻的要求,並且對高維空間數據分類來說也具有較高的分類性能。本方法能夠根據要求設計出有效而緊緻的網絡結構、具有一定的通用性、應用面較廣。
文檔編號G06N3/08GK101976373SQ20101052971
公開日2011年2月16日 申請日期2010年11月2日 優先權日2010年11月2日
發明者胡靜 申請人:上海電機學院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀