基於相關向量機的多類數據分類方法
2023-04-26 04:18:06
專利名稱:基於相關向量機的多類數據分類方法
技術領域:
本發明屬於數據處理技術領域,涉及數據分類,特別是一種針對多類數據的識別分類方法,用於目標識別中。
背景技術:
數據分類是用來區分不同目標數據,把不同的目標數據儘可能的區分開,從而能在大量不同目標數據中識別出各個目標數據。現階段的數據分類方法主要是研究兩類數據分類的問題,兩類數據分類方法主要有支持向量機方法和相關向量機方法。支持向量機 SVM是Cortes和Vapnik於1995年首次提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢。SVM最初用於解決兩類數據分類問題,不能直接用於多類數據分類問題。相關向量機RVM是Tipping於2001年在貝葉斯框架的基礎上提出的,它與SVM 一樣,通過核函數映射將低維空間的非線性問題轉化為高維空間的線性問題。與SVM相比, RVM不需要估計正則化參數,核函數也不需要滿足Mercer條件,需要更少的相關向量,訓練時間長,測試時間短。對於Logistic模型和ftx)bit模型的RVM兩類數據分類方法,可以很容易的推廣到多類數據分類上。目前,多類數據分類方法主要有以下幾種一、SVM多類數據分類方法。這種方法大致可以分為兩大類一是通過某種方式構造一系列的兩類數據分類器,並將它們組合在一起來實現多類數據分類,這類SVM多類數據分類方法包括一對多算法和一對一算法;二是將多個分類面的參數求解合併到一個最優化問題中,通過求解最優化問題「一次性」地實現多類數據分類,這類方法主要有二次規划算法。其中一對多算法,依次用一個兩類SVM分類器將每一類數據與其它所有類數據區分開,得到K個分類函數,分類時將未知數據分類為具有最大分類函數值的那一類。這種方法的好處是每個優化問題的規模都很小,而且分類時速度比較快,但會有分類重疊或不可分類現象,造成數據集的偏斜。一對一算法,是在每兩類數據間訓練一個兩類SVM分類器,對於一個K類問題,將有Κ(Κ-1)/2個分類函數,當對一個未知樣本進行分類時,每個分類器都對其類別進行判斷,並為相應的類別「投上一票」,最後得票最多的類別即作為該未知樣本的類另U。雖然分類器的數目多了,但在算出這些分類器的分類平面時,所用的總時間卻比一對多方法少,但又存在分類重疊現象。二次規划算法,是在訓練時將K個分類面的參數求解合併到一個最優化問題中, 通過二次規劃方法求解最優化問題所需的參數,在測試時採用與一對多算法相同的判決方法,即對於某個輸入樣本,其分類結果為各子分類器輸出值最大的那個類別,此算法不適合對類別數多的數據分類。二、基於Logistic模型的多類數據分類方法。該方法是一種基於多元Logistic Regression 模型的多類表述,如文獻「Sparse Multinomial Logistic Regression :FastAlgorithms and Generalization Bounds,IEEE Trans, on Pattern Analysis and Machine Intelligence, Vol. 27,2005. 」。該文獻通過邊界優化方法與按分量逐個迭代的結合,實現對大樣本數及高特徵維數據的稀疏多類數據分類。此方法假設具有稀疏化特性的拉普拉斯先驗信息,在最大後驗準則下構造分類器,存在近似計算的不足。
發明內容
本發明的目的在於克服上述已有多類數據分類技術的缺點,提出一種基於相關向量機的多類數據分類方法,以減小近似計算量,避免分類重疊,實現對類別數多的數據分類。實現本發明目的的技術方案是以多元ftx)bit為模型,利用變分貝葉斯方法進行最優化問題的求解,通過一次性的求解出分類所需參數,而無需構造多個兩類分類器進行組合分類,避免分類重疊現象,適用類別數多的數據分類;同時通過假設參數的先驗分布為共軛先驗分布,使後驗分布與先驗分布具有相同的形式,從而很方便的寫出參數的後驗分布,進行後驗參數的求解,以減小近似計算。具體步驟包括如下(1)將多類數據集劃分成交叉驗證數據集V、訓練數據集R和測試數據集T,並對其進行歸一化預處理,使數據的不同特徵在同一尺度上;(2)確定相關向量機的核函數類型,根據歸一化預處理後的交叉驗證數據集V' 確定該相關向量機的核參數;(3)基本參數設置;(3a)設置相關向量機的迭代次數L = 100、迭代數1。= 0、收斂閾值ο = 10_6 ;(3b)設置權值參數矩陣W= [wi; L, wk, L, wK]中Wk先驗分布的均值是零向量、方差是(diagfek))—1的高斯分布,其中權值方差向量%的每個元素Cimk服從形狀參數= 10_6、 尺度參數K = 10_6的伽馬分布,diag(ak)表示對角矩陣,即對角線元素為向量%,其餘元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數,m= 1,L,M,M為歸一化預處理後訓練數據集R'的映射矩陣的行數;(3c)設置噪聲參數ε η服從均值為零、方差為G1的高斯先驗分布,其中噪聲準確度參數τ η服從形狀參數Ctl= 10_6、尺度參數dQ= 10_6的伽馬分布,η = 1,L,N,N為訓練數據集R的樣本數;(4)根據歸一化預處理後的訓練數據集R'、核函數類型、核參數和(3)中設置的基本參數,利用如下分類面參數更新公式計算相關向量機的分類面參數mn=9n{W),Sn=<Tny%,
權利要求
1. 一種基於相關向量機的多類數據分類方法,包括如下步驟(1)將多類數據集劃分成交叉驗證數據集V、訓練數據集R和測試數據集T,並對其進行歸一化預處理,使數據的不同特徵在同一尺度上;(2)確定相關向量機的核函數類型,根據歸一化預處理後的交叉驗證數據集V'確定該相關向量機的核參數;(3)基本參數設置;(3a)設置相關向量機的迭代次數L = 100、迭代數1。= 0、收斂閾值σ = 10_6 ; (3b)設置權值參數矩陣W = [wi; L,wk, L,wK]中Wk先驗分布的均值是零向量、方差是 (Cliag(Cik))-1的高斯分布,其中權值方差向量Cik的每個元素Cimk服從形狀參數= 10_6、 尺度參數K = 10_6的伽馬分布,Cliag(Cik)表示對角矩陣,即對角線元素為向量ak,其餘元素為零的矩陣,(Γ1表示矩陣求逆,k= 1,L,K,K為類別數,m= 1,L,M,M為歸一化預處理後訓練數據集R'的映射矩陣的行數;(3c)設置噪聲參數ε n服從均值為零、方差為G1的高斯先驗分布,其中噪聲準確度參數 τ n服從形狀參數Ctl= 10_6、尺度參數dQ= 10_6的伽馬分布,η = 1,L,N,N為訓練數據集R 的樣本數;(4)根據歸一化預處理後的訓練數據集R'、核函數類型、核參數和(3)中設置的基本參數,利用如下分類面參數更新公式計算相關向量機的分類面參數
2.根據權利要求1所述的多類數據分類方法,其中步驟4中分類面參數更新公式中(<k)、和〈義〉的求解如下
3.根據權利要求1所述的多類數據分類方法,其中步驟(7)所述的根據更新完成後的相關向量機的分類面參數,對歸一化預處理後的測試數據集T'進行預測,是通過如下公式進行
全文摘要
本發明提出了一種基於相關向量機的多類數據分類方法,主要解決現有多類數據分類方法不能整體求解分類面參數或需要近似計算的問題。其實現過程是劃分多類數據集,並進行歸一化預處理;確定核函數類型和核參數;設置基本參數;計算分類面參數;計算對數下界並求其變化值,把迭代數加1;若對數下界變化值收斂或迭代數達到迭代次數,則完成分類面參數更新,否則繼續更新;根據更新完成後的分類面參數,得預測概率矩陣,矩陣每行最大值對應的列數組成測試數據集的分類類別,預測概率小於虛警概率與檢測概率對應曲線中設定的虛警概率值的樣本被據判。本發明具有用較少的關聯向量,得到與SVM相比擬的分類及拒判性能的優點,可用於目標識別中。
文檔編號G06K9/66GK102254193SQ20111019936
公開日2011年11月23日 申請日期2011年7月16日 優先權日2011年7月16日
發明者劉宏偉, 徐丹蕾, 李志鵬, 杜蘭, 馬田香 申請人:西安電子科技大學