一種平均錯分代價最小化的分類器集成方法
2023-05-06 11:23:36 1
專利名稱:一種平均錯分代價最小化的分類器集成方法
技術領域:
本發明涉及機器學習和模式識別方法,特別涉及一種平均錯分代價最小化的分類器集成方法,具體涉及到多分類代價敏感學習的分類器集成方法和多標籤分類問題的分類器集成方法。
背景技術:
目前的分類方法一般都追求分類準確率,即分類錯誤率最小,其基於所有類被錯分的代價相等。當不同類被錯分的代價不等時,便引出了代價敏感分類問題,此時要求設計的分類器滿足錯分代價最小而非分類錯誤率最小。目前已有不少代價敏感學習方法,如 Domingos 等人於 1999 年在文章《MetaCost :A general method for making classifiers cost-sensitive》中採用元代價處理方法把一般的分類模型轉換成代價敏感分類模型的方法,Elkan 禾口 Bruka 等人在文章((The foundations of cost-sensitive learning))禾口 《A support for decision making Cost-sensitive learning system》中也指出用錯分代價調整樣本初始分布來解決代價敏感分類的集成學習方法,以及Ling等人於2006年在文章《Test strategies for cost-sensitive decision trees》中提出的一些最小代價決策分類法等。Ling等人於2007年在文章《A comparative study of cost-sensitive classifiers)),葉志飛等人於2009年在文章《不平衡分類問題研究綜述》中都對目前已有的眾多代價敏感學習算法進行了比較。在眾多代價敏感學習方法中,基於AdaBoost引入錯分代價的代價敏感學習方法,因AdaBoost算法自身具有的顯著性能,在代價敏感學習方法中受到了更多的重視和關注。目前的代價敏感學習方法主要針對二分類問題,已有的多分類問題的代價敏感學習方法只能區分錯分代價總和而無法區分錯分成不同類代價的差異。郝紅衛等人在專利CNlOllM^eA中提出了一種分類器動態選擇與循環集成方法,高常鑫等人在專利CN100587708C中闡述了一種分類器集成方法,Zhu和Fu等人於2009年分別在 JC M ((Multi-class AdaBoost))禾口〈〈Effictive property and best combination of classifiers linear combination》中考慮了直接用於多分類問題的集成學習方法,但都沒有引入代價。對多分類的代價敏感分類,目前通常做法是把問題轉換成多級二分類問題來處理,為此必須進行錯分代價的合併,但只能考慮每一類被錯分的代價總和而無法區分被錯分成不同類的代價。合併錯分代價完全掩蓋了不同錯分代價的差異,無法獲得真正的錯分代價最小化分類器。多標籤分類問題是一種比較複雜的分類問題,它不同於兩類分類問題,它允許問題中存在多個類別(或稱為標籤);不同於多類分類問題,它允許樣本同時屬於多個類別; 它不同於單標籤分類問題(包括兩類問題和多類問題),在單標籤分類問題中,標籤(類別)與標籤之間都是相互排斥的,每個樣本只能屬於唯一的一個類別,而在多標籤分類問題中,標籤與標籤之間是相瓦關聯的,允許問題中的部分樣本同時屬於多個標籤。由於多標籤分類問題的複雜性和廣泛的應用價值,引起了越來越多國內外研究者的關注,並取得了一定的成果。目前,對於多標籤分類問題在許多文獻資料中都有相關的研究,已形成多種解決多標籤分類問題的方法,根據總體設計思路不同,一般分為兩種一種是基於數據分解的多標籤分類方法;一種是基於單個優化問題的多標籤分類方法。其中,基於數據分解的多標籤分類方法實質上是將多標籤分類問題分解為多個單標籤分類子問題,然後使用現有的單標籤分類方法處理這些子問題,再將所有子問題的解集成,最終得到總的多標籤分類問題的解。再者是基於單個優化問題的多標籤分類方法,它通過對一般的分類方法進行改造,只建立一個最優化問題直接處理數據集中的所有樣本,從而完成能夠直接處理多標籤分類問題的任務。在多標籤數據集中的樣本擁有多個標籤,怎樣建立和求解這樣的最優化問題是要解決的重要問題,它沒有改變數據集的結構,沒有破壞類別之間的關聯關係,反映了多標籤分類的特殊性質,但該方法的實現有一定的難度。總的來說,構造多標籤分類問題的集成學習方法是很難的。
發明內容
針對現有技術存在的問題,本發明的主要目的在於提供一種平均錯分代價最小化的分類器集成方法,該方法能夠真正實現分類結果偏向錯分代價較小的類,並在不直接要求各個分類器相互獨立的條件下,確保訓練錯誤率隨著訓練的分類器的個數增加而降低。為實現上述目的,本發明的技術方案構思原理如下本發明採取把用符號函數表示的錯分代價的極值問題轉換成用指數函數表示的極值問題,並基於遞推思想,得到了一種平均錯分代價最小化的分類器集成方法。對訓練樣本集S = {(Xl,yi),···,0^^)},考慮1(分類問題^ e {1,2,... ,Kj0 弱分類器ht(x)輸出標籤1的置信度為ht(x,1),1 = 1,...,K. (x,y) e S簡記為χ e S。集成學習方法通常指通過某種方式得到T個弱分類器ht (χ),t = 1,...,T, 然後進行組合得到分類性能更好的組合分類器。線性組合最常用,
權利要求
1.一種多分類代價敏感學習的分類器集成方法,包括以下步驟.51、獲取訓練樣本集;.52、初始化樣本權值並賦初值;.53、迭代T次後,訓練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特徵在於所述步驟S2給訓練樣本賦初值的方法為Al=(VZ0)(CiyJ)Im),其中,i = 1, ... ,m, 1 = l,...,K,yi e {1,2,..., K}, Z0為咚的歸一化因子,c (Yi, 1)表示yi類被錯分成1類的代價,m為訓練樣本數;所述步驟S3具體包括如下步驟.531、基於有權值.<的訓練樣本集S訓練弱分類器,t= 1,. . .,T,通過如下步驟實現.5311、對應樣本集S的劃分
2.根據權利要求1所述的方法,其特徵在於所述步驟S4得到最佳組合分類器的方法為
3.一種利用權利要求1所述的方法實現的多分類連續AdaBoost集成學習方法,包括以下步驟.51、獲取訓練樣本集;.52、初始化樣本權值並賦初值;.53、迭代T次後,訓練得到T個最佳弱分類器;.54、組合T個最佳弱分類器得到最佳組合分類器,其特徵在於所述步驟S2給訓練樣本賦初值的方法為
4.根據權利要求3所述的方法,其特徵在於所述步驟S4得到最佳組合分類器的方法為F(x) = argmp{/(x』/)},其中= ;^ 力仁/)。
5.一種利用權利要求1所述的方法實現的過預測標籤最少化Adaboost集成學習方法, 包括以下步驟Si、獲取訓練樣本集;S2a、初始化樣本權值並賦初值;S3a、迭代T次後,訓練得到T個最佳弱分類器;S4a、組合T個最佳弱分類器得到最佳組合分類器,其特徵在於所述步驟Sh給訓練樣本賦初值的方法為<; = (Ce(uV(『))/z。,其中,i = 1,. . .,m,1 =1,...,K,Z0是歸一化因子,C0 (i,1)表示過預測標籤最少化時,i類被錯分成1類的代價矩陣;所述步驟S3a具體包括如下步驟S31a、基於有權值<的訓練樣本集S訓練弱分類器,t = 1,. . .,T,通過如下步驟實現 S311a、對應樣本集S的劃分,S=SU + + + U《,計算<=[,:(,,碎)<,其中j = 1,. . .,nt,1表示多分類問題中的類,Xi表示第i個樣本,ft^表示劃分段^內並標籤集包含除標籤1外的標籤的樣本的概率;S312a、定義弱分類器ht(x),當,有蚧,0 = -1+/'),其中,ht(x,l)為弱分類器ht(χ) 輸出標籤1的置信度;S3I3L選取弱分類器ht (χ),使ζ,=^^(11)/4)1"最小,其中,Zt代表樣本權值調整後的歸一化因子;S32a、根據步驟S31a的結果來調整樣本權值,Φ(Α,(χ,.,/)-( /Γ)Σ〖=Α( ^); S33a、判斷t是否小於T,若是,則令t = t+Ι,返回步驟S31a,若否,則進入步驟S4a。
6.根據權利要求5所述的方法,其特徵在於所述步驟S^得到最佳組合分類器的方法為醜⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
7.一種利用權利要求1所述的方法實現的欠預測標籤最少化AdaBoost集成學習方法, 包括以下步驟Si、獲取訓練樣本集;S2b、初始化樣本權值並賦初值;S3b、迭代T次後,訓練得到T個最佳弱分類器;S4b、組合T個最佳弱分類器得到最佳組合分類器,其特徵在於所述步驟S^給訓練樣本賦初值的方法為、=( /ζ。)( (υ)/(『)),其中i = 1,. . .,m 1 =1,...,K,Z0是歸一化因子,Cy (i,1)表示欠預測標籤最少化時,i類被錯分成1類的代價矩陣;所述步驟S!3b具體包括如下步驟S31b、基於有權值<的訓練樣本集S訓練弱分類器,t = 1,. . .,T,通過如下步驟實現 S311b、對應樣本集S的劃分+ + + ,計
8.根據權利要求7所述的方法,其特徵在於所述步驟S4b得到最佳組合分類器的方法為
9.一種利用權利要求1所述的方法實現的多標籤分類問題AdaBoost集成學習方法,包括以下步驟Si、獲取訓練樣本集;S2c、初始化樣本權值並賦初值;S3c、迭代T次後,訓練得到T個最佳弱分類器;S4c、組合T個最佳弱分類器得到最佳組合分類器,其特徵在於所述步驟S2c給訓練樣本賦初值的方法為
10.根據權利要求9所述的方法,其特徵在於所述步驟Sk得到最佳組合分類器的方法為醜⑷={/:/(")》,其中/(χ,ο=Σ『=Α(4),7⑷=(ι/ι)Σ:/(4)。
全文摘要
本發明公開了一種平均錯分代價最小化的分類器集成方法,該方法包括如下步驟S1、獲取訓練樣本集;S2、初始化樣本權值並賦初值,S3、迭代T次後,訓練得到T個最佳弱分類器,包括如下步驟S31、基於有權值的訓練樣本集S訓練弱分類器;S32、根據步驟S31的結果來調整樣本權值,S33、判斷t是否小於T,若是,則令t=t+1,返回步驟S31,若否,則進入步驟S4;S4、組合T個最佳弱分類器得到最佳組合分類器,本發明相對於現有技術,可真正實現分類結果向錯分代價小的類集中,並在不直接要求各個分類器相互獨立的條件下,確保訓練錯誤率隨著訓練的分類器的個數增加而降低,解決了目前已有的代價敏感學習方法只能向錯分代價總和最小的類集中的問題。
文檔編號G06K9/66GK102184422SQ201110126230
公開日2011年9月14日 申請日期2011年5月15日 優先權日2011年5月15日
發明者付忠良, 姚宇, 李昕, 趙向輝 申請人:中科院成都信息技術有限公司