基於快速稀疏分解和深度學習的生態聲音識別方法
2023-05-15 08:32:21
基於快速稀疏分解和深度學習的生態聲音識別方法
【專利摘要】本發明涉及一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟:S01:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵;S02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵;S03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練;S04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。本發明對系統抗噪性和魯棒性的提高更為顯著。
【專利說明】基於快速稀疏分解和深度學習的生態聲音識別方法
【技術領域】
[0001]本發明涉及一種基於快速稀疏分解和深度學習的生態聲音識別方法。
【背景技術】
[0002]近年來,棲息地保護受到越來越廣泛的關注,部分地區已大規模部署監控以掌握實時信息。通過分析和識別生態環境中包含的音頻信息,可以為入侵監測、物種勘察等應用提供數據支持。在現實環境中,複雜多變的背景噪聲是普遍存在的,因此,噪聲環境下的生態聲音識別具有重要的實際意義。
[0003]目前語音與音樂分類識別技術較多,而環境聲音的研究相對較少。不同環境包含的音頻信息差別很大,如餐廳,廣場等嘈雜環境中,更多的是說話聲、碰撞聲或車聲等,生態環境中的音頻更側重於動物和自然所產生的聲音。目前有較多方法針對如鳥叫或蛙叫等單類別聲音改進的識別算法,應用範圍較為有限,例如=Chen等人提出頻域特徵多級平均譜(Mult1-StageAverageSpectrum, MSAS),結合音節長度對18種娃類聲音進行兩次識別分類,識別效果優於單獨利用MSAS特徵,但是對於重疊的動物叫聲,音節長度分類顯然不能奏效;Lee等人使用高斯混合模型(GMM)對譜圖形態特徵進行建模,對連續型鳥叫進行分類識別。還有一些多類別生態聲音識別的研究如=Raju等人提取基音,共振峰和短時能量特徵集結合支持向量機(SVM)對包括貓狗獅子在內的19種動物聲音進行分類識別;Zhang等人提取改進的Mel頻率倒譜係數(Mel-FrequencyCepstralCoefficients,MFCCs)作為特徵並使用GMM對多種昆蟲聲音分類識別。
[0004]以上這些方法都存在一些不足之處,GMM和隱馬爾科夫模型(HMM)在語音等結構化聲音上應用較為廣泛,而生態聲音隨機性較大,且並非都是結構化的,所以使用上述產生式模型並不穩定。判別式模型SVM和一些傳統的神經網絡能夠較好的對非線性可分類進行建模,但在高維特徵及類別數量較多時,分類效果還不如GMM或HMM。
【發明內容】
[0005]有鑑於此,本發明的目的是提供一種基於快速稀疏分解和深度學習的生態聲音識別方法。
[0006]本發明採用以下方案實現:一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟:
[0007]SOl:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵;
[0008]S02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵;
[0009]S03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練;
[0010]S04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。
[0011]在本發明一實施例中,假設待分解信號f,長度為N,進行稀疏分解之前,首先構造過完備原子字典D=(gY) Y e r,時頻原子gY是Gabor原子,由參數組Y = (s,u, v,w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子w定義其波形,其離散化時頻參數Y = (s, u, V, w) = (aJ, paJ Δ u, ka_J Δ ν, 1八《0,其中,0〈」(1g2N,O ^ ρ ^ N2_J+1,0 ^ k〈2J+1,012, a=2, Δ u=l/2, Δ v= ji , Δ w= π /6 ;所述步驟 SOI 具
體步驟包括:
[0012]SOll:初始化信號殘差RQf=f,迭代次數k=l,最大迭代次數L ;
[0013]S012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關的原子gYk,
【權利要求】
1.一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟: s01:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵; s02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵; s03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練; s04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。
2.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,假設待分解信號f,長度為N,進行稀疏分解之前,首先構造過完備原子字典D= (gY)Y e r,時頻原子8¥是Gabor原子,由參數組Y = (s, u, v, w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子W定義其波形,其離散化時頻參數Y = (S,U,V, w) = (aJ, paJ Δ u, ka_J Δ v, i Δ w),其中,0〈j ^ 1g2N, 0 ^ p ^ N2_J+1,0 ^ k〈2J+1,0 ^ i ^ 12,a=2, Δ u=l/2, Δ V= , Δ w= π/6 ;所述步驟SOI具體步驟包括: s011:初始化信號殘差RtlPf,迭代次數k=l,最大迭代次數L ; s012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關的原子gYk,
3.根據權利要求2所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,所述步驟S012,利用GSO搜索最優原子,具體步驟包括: s001:初始化螢火蟲種群規模n,螢光素Ii,決策域半徑IV最大迭代次數tmax並隨機生成螢火蟲;
s002:根據 Xi (t) = (Si (t),Ui (t),Vi (t),Wi (t))和 f (Xi (t)) = I 計算螢火蟲i在第t次迭代的所處位置Xi⑴的目標值f (Xi⑴),並根據IJt-1)+ηf (Xi⑴)轉化為螢光素值Ii(t),其中,P e (O, I)為螢光素消失率,η e (O, I)為螢光素更新率; s003:每隻螢火蟲i在其動態決策域rj(i)內搜尋螢光素比自身大的個體組成鄰域集Ni (t),Ni(I) = {/: Ciij(J) < 1--(I)JiH) < Ij(J)S) < /;;(/) < /; ,其中 rs 為螢火蟲決策域的最大值; s004:計算螢火蟲個體i向鄰域集Ni⑴內任一個體j移動的概率Pij,
4.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,所述步驟S02具體為:提取包括OMP特徵、MFCCs特徵和基音特徵的複合特徵;其中,提取OMP特徵的方法具體為利用OMP分解每一幀聲音信號,獲得表示該幀信號的支撐集前L個原子時頻參數組中伸縮因子s和頻率因子V的均值和標準差,構成4維OMP特徵,
5.根據權利要求4所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:選取MFCCs補充OMP特徵使用,首先採用24階Mel濾波器組,對重構信號作離散傅立葉變換後得到12維MFCCs靜態特徵,再加上對數能量作為其第13維特徵。
6.根據權利要求4所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:選取PITCH補充OMP特徵使用,採用循環平均幅度差函數法獲得每幀對應的I維PITCH特徵。
7.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:所述DBN模型訓練包括兩個步驟,第一步採用無監督逐層貪心的策略進行預訓練,將已標記好的生態聲音特徵初始化DBN最底層的可見層節點的狀態值,這樣使得具體特徵逐漸抽象化;第二步使用正確標註信息有監督的訓練BP網絡,並將修正信息自頂向下的傳播至每一層RBM進行微調。
8.根據權利要求7所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:RBM網絡採用ContrastiveDivergence準則作為自訓練策略,每層均由一個可視層V和隱層H組成,通過自底向上的層間加權連接組合多個RBM,用隱層單元的輸出作為上層RBM可視層的輸入,從而構建一個DBN框架,RBM包含三個參數,分別是可見層和隱層之間的權值W,以及各自偏置量b和C,因此對DBN分類器訓練的過程轉化為對RBM參數的求解,假設可視層和隱層的節點值分別為Vi和hp可視層V每一個節點置I的概率為
【文檔編號】G10L17/04GK103531199SQ201310472330
【公開日】2014年1月22日 申請日期:2013年10月11日 優先權日:2013年10月11日
【發明者】李應, 歐陽楨 申請人:福州大學