基於線性表示多視圖鑑別字典學習的分類方法與流程
2023-06-11 13:17:56 3
本發明具體涉及基於線性表示多視圖鑑別字典學習的分類方法,屬於模式識別
技術領域:
。
背景技術:
:現有的「基於不相關多視圖鑑別字典學習的識別方法」(UMDDL,X.Y.Jing,R.M.Hu,F.Wu,X.L.Chen,Q.Liu,andY.F.Yao,「UncorrelatedMulti-viewDiscriminationDictionaryLearningforRecognition」,AAAIConferenceonArtificialIntelligence,pp.2787-2795,2014):對於M個視圖的數據集Ak(k=1,…,M),UMDDL方法通過求解下面的問題學習M個鑑別字典Dk(k=1,…,M):s.t.Corr(Dk,Dl)=0,l≠k其中,Xk(k=1,…,M)表示數據集Ak對應字典Dk的稀疏表示係數,C表示數據集中的類別個數,表示數據集Ak中第i類的數據子集,表示數據子集對應字典Dk的稀疏表示係數,表示字典Dk中對應第i類的子字典,表示數據子集對應子字典的稀疏表示係數,λ是一個權重係數,Corr(Dk,Dl)=0表示字典Dk和Dl之間的相關性為0。通過交叉迭代更新D1,D2,…,DM和X1,X2,…,XM得到字典D1,D2,…,DM之後,對於包含M個視圖的測試樣本y={y1,y2,…,yM},UMDDL方法按照下面的方式使用字典D1,D2,…,DM進行稀疏編碼:其中,αk表示yk對應字典Dk的稀疏表示係數,γ是一個權重係數。然後計算測試樣本y對應第i類的重構誤差:其中,表示yk對應子字典的最優稀疏表示係數。最後,UMDDL方法按照如下方式進行分類:上述UMDDL方法通過稀疏編碼技術獲得稀疏表示係數,求解過程較為複雜;且無論是在訓練階段還是在測試階段,目標函數中稀疏項採用的都是L1範數近似表示,而不是L0範數的精確表示,求解過程的不精確必然會對識別結果的準確性產生不利影響;另外,訓練階段多個視圖字典之間的相關性約束也使得求解過程變得複雜。技術實現要素:發明目的:為克服現有技術的不足,基於線性表示多視圖鑑別字典學習的分類方法使用線性表示來獲得線性表示係數,沒有稀疏性限制,從而可以簡化求解過程,使求解結果更加精確,有效地提高分類效果;此外,訓練階段多個視圖字典之間使用正交約束可以進一步簡化求解過程。在AR人臉資料庫(A.M.Martinez,andR.Benavente,「TheARFaceDatabase」,CVCTechnicalReport#24,1998)和MNIST手寫體數字資料庫(Y.Mizukami,K.Tadamura,J.Warrell,P.Li,andS.Prince,「CUDAImplementationofDeformablePatternRecognitionandItsApplicationtoMNISTHandwrittenDigitDatabase」,Int.Conf.PatternRecognition,pp.2001-2004,2010)上做仿真實驗,證明基於線性表示多視圖鑑別字典學習的分類方法能夠更好地對測試樣本進行分類。本發明的技術方案如下:設X=[X1;X2;…;XM]表示一個包含M個視圖的訓練樣本集,X中包含c個類別,第j個類別中包含Nj個樣本,表示第i個視圖的訓練樣本集,表示Xi中第j個類別的訓練樣本集,(Rd表示d維的實向量集合)表示中的第t個訓練樣本,y=[y1;y2;…;yM]表示一個包含M個視圖的測試樣本,yi∈Rd表示第i個視圖的測試樣本,包括如下階段步驟:A、在訓練階段,基於線性表示多視圖鑑別字典學習的分類方法通過求解下面的問題獲得(1)對應第i個視圖第j個類別的字典(表示d×Nj階實矩陣集合),i=1,2,…,M,j=1,2,…,c;(2)使用線性表示的線性表示係數矩陣k=1,2,…,c:通過依次更新線性表示係數矩陣和字典進行迭代求解,可以得到這兩組變量的解。B、在分類測試階段,步驟1,基於線性表示多視圖鑑別字典學習的分類方法通過求解下面的問題獲得M個線性表示係數向量計算用第j個類別的字典去重構測試樣本y的重構誤差,如下:步驟2,如果rk(y)在r1(y),r2(y),…,rc(y)中最小,基於線性表示多視圖鑑別字典學習的分類方法將y歸到第k類。有益效果本發明採用以上技術方案與現有技術相比,具有以下有益效果:基於線性表示多視圖鑑別字典學習的分類方法使用線性表示來獲得線性表示係數,沒有稀疏性限制,從而可以簡化求解過程,使求解結果更加精確,有效地提高字典的分類能力;此外,訓練階段多個視圖字典之間使用正交約束可以進一步簡化求解過程。具體實施方式以下具體說明本發明的技術方案。實驗驗證選用AR人臉資料庫(A.M.Martinez,andR.Benavente,「TheARFaceDatabase」,CVCTechnicalReport#24,1998)和MNIST手寫體數字資料庫(Y.Mizukami,K.Tadamura,J.Warrell,P.Li,andS.Prince,「CUDAImplementationofDeformablePatternRecognitionandItsApplicationtoMNISTHandwrittenDigitDatabase」,Int.Conf.PatternRecognition,pp.2001-2004,2010)。AR人臉資料庫包含119個人,每個人26張60×60的灰度圖像,包含光照變化和遮擋變化。實驗中每個人選擇8張圖像作為訓練樣本、18張圖像作為測試樣本。MNIST手寫體數字資料庫由10個阿拉伯數字,共10000張圖片組成,每個數字有863~1127張28×28的灰度圖像,包含了各種形式的手寫阿拉伯數字。實驗中每個數字選擇40張圖像作為訓練樣本、其餘圖像作為測試樣本。實驗中通過構造Gabor變換特徵集、Karhunen-Loeve(KL)變換特徵集和LocalBinaryPatterns(LBP)特徵集來生成三個視圖的數據集(X.Y.Jing,R.M.Hu,F.Wu,X.L.Chen,Q.Liu,andY.F.Yao,「UncorrelatedMulti-viewDiscriminationDictionaryLearningforRecognition」,AAAIConferenceonArtificialIntelligence,pp.2787-2795,2014)。實驗統計UMDDL和基於線性表示多視圖鑑別字典學習的分類方法(即表中的LR-MDDL)的平均識別率,見表1。從表1中可以看出,與UMDDL方法相比,基於線性表示多視圖鑑別字典學習的分類方法的平均識別率明顯更高一些,這說明基於線性表示的字典學習有效地提高了字典的分類能力。表1UMDDL和LR-MDDL的平均識別率(%)分類器AR人臉資料庫MNIST手寫體數字資料庫UMDDL95.1689.35LR-MDDL96.9191.24當前第1頁1 2 3