一種基於模糊isodata的特徵選取方法
2023-08-05 13:13:51
專利名稱:一種基於模糊isodata的特徵選取方法
技術領域:
本發明涉及特徵選取方法,尤其涉及高維集數據的特徵選取方法,屬於機器學習領域。
背景技術:
特徵選取是機器學習中樣本分類和識別的重要環節之一,其目的是降低特徵維數,選取對樣本分類至關重要的具有豐富類別信息的關鍵特徵,提高分類質量和效率。特徵選取具有很高的實際應用價值,對樣本分類、聚類及亞型發現,特別是生物信息學領域的基因表達譜樣本的類型識別有重要的作用。為滿足特徵選取實際運用的需要,目前有大量的特徵選取方法,其中絕大部分為將filter和wrapper方法相結合,基於分類模型進行的特徵選取方法。(I)Guyon等人提出基於支持向量機的特徵選取方法,I. Guyon, J. Weston, S. Barnhill, et al. ,Gene selectionfor cancer classification using support vector machines,Machine Learning,2002,46(1-3),他們對兩個基因表達譜數據集進行了特徵基因選取。(2) Cai等人提出基於互信量技術的特徵選取方法,R. C. Cai, Z. F. Hao, X. W. Yang, W. Wen, An efficient gene selectionalgorithm based on mutual information, Neurocomputing, 2009 (72),對基因表達譜數據集進行了特徵基因選取。近年來,有文獻研究如何融合分類算法和聚類算法的優勢,利用二者的互補性進行特徵選取和分類。(I)Yousef等人提出基於遞歸聚類剔除過程的選取特徵基因選取方法,M. Yousef, S. Jung, LC Showe, MK Showe, Recursive Cluster Elimination(RCE)for classification and feature selection from gene expression data, BMCBioinformatics, 2007,8 (I) 144,這種方法在特徵選取過程中引入聚類算法。(2) Cai等人提出分類和聚類算法相結合的學習框架,W. L. Cai,S. C. Chen,and D. Q. Zhang,A simultaneouslearning framework for clustering and classification,Pattern Recognition,2009,42 (7),這種方法以聚類時類內數據的緊密程度為參數,完成對聚類和分類的目標函數的合併和補充。上述方法選取的關鍵特徵有較強的分類能力,但聚類能力相對較弱。
發明內容
本發明針對上述特徵選取方法的不足,利用分類和聚類算法的互補性,提出基於模糊IS0DATA(Interactive Self-Organizing Data,又稱模糊C均值聚類算法)的靈敏度分析方法,從高維數據集中選取出具有較強分類和聚類能力的關鍵信息特徵。本發明方法的流程如圖I所示,該方法主要包括如下四個步驟第一步驟數據集分割步驟,將數據集隨機分成訓練集、校驗集和獨立測試集,訓練集用於生成候選特徵子集,校驗集用於校驗候選特徵子集所含的樣本類別信息並從中選擇確定最佳特徵子集,獨立測試集用於進一步測試最佳特徵子集的分類和聚類性能;
第二步驟特徵靈敏度分析步驟,在遞歸特徵選取過程中,對訓練集樣本進行模糊ISODATA聚類,分析特徵對聚類類別隸屬度的靈敏度,逐級篩選高靈敏度的特徵組成候選特徵子集;特徵靈敏度分析方法分為如下幾步已知訓練集η個樣本分別屬於s個類別,每個樣本有m個特徵,第k個樣本Xk ={xkl,, xkJ, . . .,XkJ,其中Xkj為樣本Xk的第j個特徵。經模糊ISODATA聚類後,樣本Xk
對第i個聚類類別的隸屬度
權利要求
1.一種基於模糊ISODATA的特徵選取方法,其特徵在於,包括如下步驟 第一步驟數據集分割步驟,將數據集隨機分成訓練集、校驗集和獨立測試集,訓練集用於生成候選特徵子集,校驗集用於校驗候選特徵子集所含的樣本類別信息並從中選擇確定最佳特徵子集,獨立測試集用於進一步測試最佳特徵子集的分類和聚類性能; 第二步驟特徵靈敏度分析步驟,在遞歸特徵選取過程中,對訓練集樣本進行模糊ISODATA聚類(Fuzzy Interactive Self-Organizing Data,又稱模糊 C均值聚類算法),分析特徵對聚類類別隸屬度的靈敏度,並由靈敏度值較高的特徵組成候選特徵子集; 第三步驟候選特徵子集校驗步驟,以候選特徵子集F在校驗集中的分類和聚類結果作為選擇最佳特徵子集的目標函數Object(F),以目標函數Object(F)衡量候選特徵子集所含的類別信息,選擇目標函數最大的候選特徵子集為最佳特徵子集; 第四步驟最佳特徵子集測試步驟,用獨立測試集測試第三步驟選擇的最佳特徵子集的分類和聚類能力,分類器和聚類算法與第三步驟的分類器和聚類算法相同,用訓練集數據訓練過的分類器對獨立測試集的樣本分類,用聚類算法對獨立測試集的樣本聚類,分類和聚類結果直觀反映最佳特徵子集的分類和聚類能力。
2.根據權利要求I所述的基於模糊ISODATA的特徵選取方法,其特徵在於,上述第二步驟中的特徵靈敏度計算分析方法,包括如下步驟 已知訓練集η個樣本分別屬於s個類別,每個樣本有m個特徵,第k個樣本Xk ={xkl,, xkJ, . . .,xj,其中Xkj為樣本Xk的第j個特徵。經模糊ISODATA聚類後,樣本Xk 對第i個聚類類別的隸屬度
3.根據權利要求I所述的基於模糊ISODATA的特徵選取方法,其特徵在於,上述第三步驟具體包括如下步驟 步驟I :分類校驗,用支持向量機(Support Vector Machine, SVM)和K近鄰(K-nearestneighbor algorithm, KNN)兩個分類器檢驗候選特徵子集的分類能力,先在訓練集中訓練分類器,再用訓練過的分類器對校驗集樣本分類; 步驟2 :聚類校驗,用層次聚類(Hierarchical Clustering, Clustering)算法檢驗候選特徵子集的聚類能力,對校驗集樣本聚類; 步驟3 :最佳特徵子集選擇,以候選特徵子集F在校驗集中的分類和聚類正確率作為選擇最佳特徵子集的目標函數 Object(F) = rightSVM(F)+rightKNN(F)+rightclustering(F),其中rightSVM(F)為支持向量機對校驗集樣本的分類正確率,rightKNN (F)為K近鄰對校驗集樣本的分類正確率,rightclustering(F)為層次聚類算法對校驗集樣本的聚類正確率,以目標函數衡量候選特徵子集所含的類別信息,選擇目標函數最高的候選特徵子集為最佳特徵子集。
全文摘要
本發明提出了一種基於模糊ISODATA的特徵選取方法,屬於機器學習領域。該方法利用分類和聚類算法的互補性,基於模糊ISODATA(Interactive Self-Organizing Data)的靈敏度分析方法,從高維數據集中選取出具有較強分類和聚類能力的關鍵特徵。首先對訓練集樣本進行模糊ISODATA聚類,由此分析特徵對聚類類別隸屬度的靈敏度,並據此在遞歸特徵選取過程中產生候選特徵子集,然後根據候選特徵子集在校驗集中的分類和聚類結果選出類別信息最豐富的候選特徵子集為最佳特徵子集。本發明方法在選取出具有較強分類和聚類能力的關鍵特徵的同時,特徵選取的效率也比較高,對於不同數據集的特徵選取也有較好的適應性,特徵選取結果總體上優於傳統方法。
文檔編號G06F17/30GK102945238SQ20121032448
公開日2013年2月27日 申請日期2012年9月5日 優先權日2012年9月5日
發明者劉全金, 趙志敏, 俞曉磊, 汪東華, 李穎新 申請人:南京航空航天大學, 江蘇省標準化研究院