新四季網

一種基於模糊isodata的特徵選取方法

2023-08-05 13:13:51

專利名稱:一種基於模糊isodata的特徵選取方法
技術領域:
本發明涉及特徵選取方法,尤其涉及高維集數據的特徵選取方法,屬於機器學習領域。
背景技術:
特徵選取是機器學習中樣本分類和識別的重要環節之一,其目的是降低特徵維數,選取對樣本分類至關重要的具有豐富類別信息的關鍵特徵,提高分類質量和效率。特徵選取具有很高的實際應用價值,對樣本分類、聚類及亞型發現,特別是生物信息學領域的基因表達譜樣本的類型識別有重要的作用。為滿足特徵選取實際運用的需要,目前有大量的特徵選取方法,其中絕大部分為將filter和wrapper方法相結合,基於分類模型進行的特徵選取方法。(I)Guyon等人提出基於支持向量機的特徵選取方法,I. Guyon, J. Weston, S. Barnhill, et al. ,Gene selectionfor cancer classification using support vector machines,Machine Learning,2002,46(1-3),他們對兩個基因表達譜數據集進行了特徵基因選取。(2) Cai等人提出基於互信量技術的特徵選取方法,R. C. Cai, Z. F. Hao, X. W. Yang, W. Wen, An efficient gene selectionalgorithm based on mutual information, Neurocomputing, 2009 (72),對基因表達譜數據集進行了特徵基因選取。近年來,有文獻研究如何融合分類算法和聚類算法的優勢,利用二者的互補性進行特徵選取和分類。(I)Yousef等人提出基於遞歸聚類剔除過程的選取特徵基因選取方法,M. Yousef, S. Jung, LC Showe, MK Showe, Recursive Cluster Elimination(RCE)for classification and feature selection from gene expression data, BMCBioinformatics, 2007,8 (I) 144,這種方法在特徵選取過程中引入聚類算法。(2) Cai等人提出分類和聚類算法相結合的學習框架,W. L. Cai,S. C. Chen,and D. Q. Zhang,A simultaneouslearning framework for clustering and classification,Pattern Recognition,2009,42 (7),這種方法以聚類時類內數據的緊密程度為參數,完成對聚類和分類的目標函數的合併和補充。上述方法選取的關鍵特徵有較強的分類能力,但聚類能力相對較弱。

發明內容
本發明針對上述特徵選取方法的不足,利用分類和聚類算法的互補性,提出基於模糊IS0DATA(Interactive Self-Organizing Data,又稱模糊C均值聚類算法)的靈敏度分析方法,從高維數據集中選取出具有較強分類和聚類能力的關鍵信息特徵。本發明方法的流程如圖I所示,該方法主要包括如下四個步驟第一步驟數據集分割步驟,將數據集隨機分成訓練集、校驗集和獨立測試集,訓練集用於生成候選特徵子集,校驗集用於校驗候選特徵子集所含的樣本類別信息並從中選擇確定最佳特徵子集,獨立測試集用於進一步測試最佳特徵子集的分類和聚類性能;
第二步驟特徵靈敏度分析步驟,在遞歸特徵選取過程中,對訓練集樣本進行模糊ISODATA聚類,分析特徵對聚類類別隸屬度的靈敏度,逐級篩選高靈敏度的特徵組成候選特徵子集;特徵靈敏度分析方法分為如下幾步已知訓練集η個樣本分別屬於s個類別,每個樣本有m個特徵,第k個樣本Xk ={xkl,, xkJ, . . .,XkJ,其中Xkj為樣本Xk的第j個特徵。經模糊ISODATA聚類後,樣本Xk
對第i個聚類類別的隸屬度
權利要求
1.一種基於模糊ISODATA的特徵選取方法,其特徵在於,包括如下步驟 第一步驟數據集分割步驟,將數據集隨機分成訓練集、校驗集和獨立測試集,訓練集用於生成候選特徵子集,校驗集用於校驗候選特徵子集所含的樣本類別信息並從中選擇確定最佳特徵子集,獨立測試集用於進一步測試最佳特徵子集的分類和聚類性能; 第二步驟特徵靈敏度分析步驟,在遞歸特徵選取過程中,對訓練集樣本進行模糊ISODATA聚類(Fuzzy Interactive Self-Organizing Data,又稱模糊 C均值聚類算法),分析特徵對聚類類別隸屬度的靈敏度,並由靈敏度值較高的特徵組成候選特徵子集; 第三步驟候選特徵子集校驗步驟,以候選特徵子集F在校驗集中的分類和聚類結果作為選擇最佳特徵子集的目標函數Object(F),以目標函數Object(F)衡量候選特徵子集所含的類別信息,選擇目標函數最大的候選特徵子集為最佳特徵子集; 第四步驟最佳特徵子集測試步驟,用獨立測試集測試第三步驟選擇的最佳特徵子集的分類和聚類能力,分類器和聚類算法與第三步驟的分類器和聚類算法相同,用訓練集數據訓練過的分類器對獨立測試集的樣本分類,用聚類算法對獨立測試集的樣本聚類,分類和聚類結果直觀反映最佳特徵子集的分類和聚類能力。
2.根據權利要求I所述的基於模糊ISODATA的特徵選取方法,其特徵在於,上述第二步驟中的特徵靈敏度計算分析方法,包括如下步驟 已知訓練集η個樣本分別屬於s個類別,每個樣本有m個特徵,第k個樣本Xk ={xkl,, xkJ, . . .,xj,其中Xkj為樣本Xk的第j個特徵。經模糊ISODATA聚類後,樣本Xk 對第i個聚類類別的隸屬度
3.根據權利要求I所述的基於模糊ISODATA的特徵選取方法,其特徵在於,上述第三步驟具體包括如下步驟 步驟I :分類校驗,用支持向量機(Support Vector Machine, SVM)和K近鄰(K-nearestneighbor algorithm, KNN)兩個分類器檢驗候選特徵子集的分類能力,先在訓練集中訓練分類器,再用訓練過的分類器對校驗集樣本分類; 步驟2 :聚類校驗,用層次聚類(Hierarchical Clustering, Clustering)算法檢驗候選特徵子集的聚類能力,對校驗集樣本聚類; 步驟3 :最佳特徵子集選擇,以候選特徵子集F在校驗集中的分類和聚類正確率作為選擇最佳特徵子集的目標函數 Object(F) = rightSVM(F)+rightKNN(F)+rightclustering(F),其中rightSVM(F)為支持向量機對校驗集樣本的分類正確率,rightKNN (F)為K近鄰對校驗集樣本的分類正確率,rightclustering(F)為層次聚類算法對校驗集樣本的聚類正確率,以目標函數衡量候選特徵子集所含的類別信息,選擇目標函數最高的候選特徵子集為最佳特徵子集。
全文摘要
本發明提出了一種基於模糊ISODATA的特徵選取方法,屬於機器學習領域。該方法利用分類和聚類算法的互補性,基於模糊ISODATA(Interactive Self-Organizing Data)的靈敏度分析方法,從高維數據集中選取出具有較強分類和聚類能力的關鍵特徵。首先對訓練集樣本進行模糊ISODATA聚類,由此分析特徵對聚類類別隸屬度的靈敏度,並據此在遞歸特徵選取過程中產生候選特徵子集,然後根據候選特徵子集在校驗集中的分類和聚類結果選出類別信息最豐富的候選特徵子集為最佳特徵子集。本發明方法在選取出具有較強分類和聚類能力的關鍵特徵的同時,特徵選取的效率也比較高,對於不同數據集的特徵選取也有較好的適應性,特徵選取結果總體上優於傳統方法。
文檔編號G06F17/30GK102945238SQ20121032448
公開日2013年2月27日 申請日期2012年9月5日 優先權日2012年9月5日
發明者劉全金, 趙志敏, 俞曉磊, 汪東華, 李穎新 申請人:南京航空航天大學, 江蘇省標準化研究院

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀