一種在限定時間內提高支持向量機多分類正確率的方法與流程

2023-06-06 21:28:41 2

本發明涉及機器學習的多分類
技術領域：
，尤其涉及一種在限定時間內提高支持向量機多分類正確率的方法。
背景技術：
：機器學習的分類問題特別是多分類問題在日常生活中有著廣泛應用，而在限定時間內的高正確率多分類方法在一些領域有特定需求，比如航天任務中對採集到的大量圖像數據，如果全部傳回地面分析，需要佔用大量通信帶寬和存儲空間，非常不經濟，如果能進行實時處理，識別出圖像中有用的部分，將其傳回，將能很好的滿足航天任務的實時性、經濟性需求，因此如何在一個特定的時限內既能完成全部分類任務又能實現正確率最高的分類結果是一項重要的工作。技術實現要素：本發明的目的是克服現有技術存在的缺陷，提供一種在限定的時間內既能完成全部分類任務又能實現最好分類結果的支持向量機多分類方法。實現本發明目的的技術方案是：一種在限定時間內提高支持向量機多分類正確率的方法，包括如下步驟：步驟1：對原始的支持向量集進行稀疏化；步驟2：在限定時間內，使用稀疏化後的支持向量集對數據進行初始快速分類；步驟3：對步驟2中初始快速分類的結果求解後驗概率；步驟4：按照步驟3中的後驗概率，從小到大的順序將數據進行排序；步驟5：在限定時間的剩餘時間內，從最小的後驗概率值對應的數據開始，使用原始的支持向量集對初始快速分類的結果進行糾錯。作為本發明的優化方案，步驟1中使用馬氏距離的方法對原始的支持向量集進行稀疏化，對正負兩類支持向量集分別進行稀疏化，稀疏化的步驟如下：1)計算支持向量集中支持向量兩兩之間的馬氏距離；2)找出1)中馬氏距離最小的一對支持向量；3)使用2)中最小的一對支持向量兩者之間的歐氏距離中間值構造一個新的支持向量取代2)中最小的一對支持向量；4)對步驟3)中新形成的支持向量集重複步驟1)至4)直到剩餘的支持向量數目達到預定值。作為本發明的優化方案，在步驟3中對後驗概率的Sigmoid函數模型建立線性化近似表達式，從而快速求解後驗概率。作為本發明的優化方案，步驟5中使用「一對多」或者「M-ary」多類分類方法根據後驗概率從小到大的順序對分類結果進行糾錯。本發明具有積極的效果：本發明可以在有限時間內實現基於支持向量機的高正確率的多分類，有效的促進了支持向量機在航天等環境的應用。具體實施方式一種在限定時間內提高支持向量機多分類正確率的方法，包括如下步驟：步驟1：對原始的支持向量集進行稀疏化；步驟2：在限定時間內，使用稀疏化後的支持向量集對數據進行初始快速分類；步驟3：對步驟2中初始快速分類的結果求解後驗概率；步驟4：按照步驟3中的後驗概率，從小到大的順序將數據進行排序；步驟5：在限定時間的剩餘時間內，從最小的後驗概率值對應的數據開始，使用原始的支持向量集對初始快速分類的結果進行糾錯。步驟1中使用馬氏距離的方法對原始的支持向量集進行稀疏化，對正負兩類支持向量集分別進行稀疏化，稀疏化的步驟如下：1)計算支持向量集中支持向量兩兩之間的馬氏距離；馬氏距離定義：設有M個樣本向量X1～Xm，協方差矩陣記為S，均值記為向量μ，則其中樣本向量X到μ的馬氏距離表示為：而其中向量Xi與Xj之間的馬氏距離定義為：若協方差矩陣是單位矩陣(各個樣本向量之間獨立同分布)，則公式(2)就成了：也就是歐氏距離了。2)找出1)中馬氏距離最小的一對支持向量；3)使用2)中最小的一對支持向量兩者之間的歐氏距離中間值構造一個新的支持向量取代2)中最小的一對支持向量；4)對步驟3)中新形成的支持向量集重複步驟1)至4)直到剩餘的支持向量數目達到預定值，預定值根據限定時間，自由決定，在限定時間內，稀疏的支持向量數目少，初始分類時間佔用少，糾錯時間多；反知，在限定時間內，稀疏的支持向量數目多，初始分類時間佔用多，糾錯時間少。在步驟3之前對後驗概率建立Sigmoid模型，並對Sigmoid模型進行線性化近似。兩分類的支持向量機計算結果是一個實數，對實數取符號函數得到兩分類結果，用Sigmoid模型對此實數運算求解後驗概率，多分類是在兩分類基礎上實現的。後驗概率的Sigmoid函數模型：其中，f為標準SVM的輸出結果，p(y＝1/f)表示在輸出值f的條件下分類正確的概率。A和B是函數中的參數值，其優化策略可通過解如下一個最大似然問題來解決：其中：fi＝f(xi)，從公式(4)可以看出，該後驗概率的Sigmoid函數模型，在求解過程中需要做指數和除法運算，在航天等應用中，這樣的求解對CPU或FPGA實現來說，都會耗費較大的資源和較長的求解時間。因此對其進行線性化近似很有必要。將公式(4)中的Af+B用-x表示，考慮一般的Sigmoid函數表達式：對此，本發明推導了一組表達式，用一系列首尾相連的直線段近似模擬公式(6)的Sigmoid曲線，為了將複雜的乘法運算轉換成移位操作，以利於用FPGA進行求解實現，所使用的直線段的斜率都是2的整數次冪。本發明使用了9段折線進行推導，線性化表達式推導的結果如下：為了驗證所推導的折線段對公式(6)的Sigmoid函數的近似程度，本發明對-10≤x≤10的區間的值進行了仿真，仿真中的步長取的是0.00001。求解了兩者之差的絕對值的均值和均方誤差。兩者相應的誤差的絕對值的均值為0.0030，均方誤差為4.5398e-005。本發明推導的線性化表達式對原Sigmoid函數進行了很好的近似。步驟5中使用「一對多」或者「M-ary」多類分類方法實現經後驗概率的分層糾錯。為解決「一對一」多類分類方法的耗時長和資源耗費大的問題，及其後驗概率求解複雜的缺點，本發明研究推導了「一對多」和「M-ary」多類分類方法的經後驗概率的分層糾錯，並進行了仿真實驗。(1)實驗原理仿真在一臺配置為：CPU：N270，1.60GHz；內存：2Gb的筆記本電腦上進行。仿真數據取了UCI機器學習資料庫中的字母圖像識別數據(LetterImageRecognitionData)進行多分類仿真實驗研究，取A、B、C、D、E、F、G和H共8類樣本進行8分類，對每一類取200個樣本用於學習訓練，另對每一類取200個不同的樣本用於分類測試。「一對多」多分類方法：考慮訓練中正負類數據的不均衡性，「一對多」方法中的稀疏化支持向量集也取為不均衡的：正支持向量10個，負支持向量70個。本發明首先構造8個兩分類器，每個兩分類器實現1類對其餘7類的兩分類，但對此兩分類器不用符號函數進行正負兩類的判別，而是直接使用求解的結果f(x)。對一個需要進行分類判決的樣本，首先用8個兩分類器求出8個f(x)的值，然後根據公式(7)，把這8個求解結果f(x)轉化為其在相應的兩分類器中的後驗概率，對這8個後驗概率值進行比較，取概率值最大的那一類作為分類類別，以上方法先用稀疏化後的支持向量集進行快速多分類，快速多分類完成後，根據概率值從小到大進行排序，用原始的支持向量集依次進行10個、50個、100個、150個……等的修正糾錯，依次記錄下修正後的正確率和所用時間，並與用原始支持向量集完成所有樣本多分類的情況進行比較。仿真結果如下：表1「一對多」方法的分層糾錯仿真結果根據後驗概率的修正個數判決結果正確率仿真耗時(秒)原始支持向量集0.9651346.203896稀疏化後的支持向量集0.751930.184025修正10個0.753845.607092修正50個0.761978.789758修正100個0.7738118.636919修正150個0.7863160.044651修正200個0.8019202.791498修正250個0.8175243.898996修正300個0.83284.883062修正350個0.8419325.437251修正400個0.8562366.920177修正450個0.8712408.244991修正500個0.8819455.431320修正550個0.8906492.857482修正600個0.9038529.932122修正650個0.9125574.477525修正700個0.9213616.471855修正750個0.9269661.911569修正800個0.9344700.474599「M-ary」多分類方法：對「M-ary」多分類方法，仿真中，稀疏化支持向量集取為：正支持向量40個，負支持向量40個(原始支持向量為1600個)，因為需分類8類，本發明一共構建了3個兩分類器，分類器的情況如下表：表2「M-ary」方法針對8分類的兩分類器構建類別兩分類器一兩分類器二兩分類器三A111B11-1C1-11D1-1-1E-111F-11-1G-1-11H-1-1-1對於一個需要分類判決的樣本，本發明首先根據上面三個兩分類的f(x)值和公式(7)，求得相應的後驗概率值，假設後驗概率值分別是g(1)、g(2)、g(3)，根據概率論的相關定義，本發明推導出待分類樣本屬於8類中的每一類的概率：對這8個後驗概率值進行比較，取概率值最大的那一類作為分類類別。仿真中的其它步驟與「一對多」方法的一樣。仿真結果如下：表3「M-ary」方法的分層糾錯仿真結果根據後驗概率的修正個數判決正確率仿真耗時(秒)原始支持向量集0.9456497.469077稀疏化後的支持向量集0.675013.920585修正10個0.678118.789464修正50個0.691330.162563修正100個0.708748.577277修正150個0.720065.813719修正200個0.736983.241425修正250個0.7506100.905196修正300個0.7619118.764572修正350個0.7756136.177515修正400個0.7875154.472005修正450個0.7981172.038729修正500個0.8075189.796919修正550個0.8194207.304405修正600個0.8313225.036204修正650個0.8413242.585814修正700個0.8512260.442251修正750個0.8619279.049068修正800個0.8656295.209737實驗仿真結果分析：由表1和表3可知，「一對多」和「M-ary」方法都可以根據後驗概率進行分層的糾錯，實現有限時間內儘可能高正確率的多分類。在分類結果實現同樣正確率的條件下，採用「M-ary」方法及後驗概率進行的分層糾錯，其運算時間要比採用「一對多」方法的運算時間少，「M-ary」方法具有一定的優勢。但由於「M-ary」方法利用稀疏化支持向量集的初始分類正確率較低，要達到同樣的最終判決正確率，「M-ary」方法需要糾錯的樣本個數比「一對多」方法多。以上所述的具體實施例，對本發明的目的、技術方案和有益效果進行了進一步詳細說明，所應理解的是，以上所述僅為本發明的具體實施例而已，並不用於限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明的保護範圍之內。當前第1頁1&nbsp2&nbsp3&nbsp

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

一種在限定時間內提高支持向量機多分類正確率的方法與流程

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法