新四季網

基於快速稀疏分解和深度學習的生態聲音識別方法

2023-05-15 08:32:21

基於快速稀疏分解和深度學習的生態聲音識別方法
【專利摘要】本發明涉及一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟:S01:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵;S02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵;S03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練;S04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。本發明對系統抗噪性和魯棒性的提高更為顯著。
【專利說明】基於快速稀疏分解和深度學習的生態聲音識別方法
【技術領域】
[0001]本發明涉及一種基於快速稀疏分解和深度學習的生態聲音識別方法。
【背景技術】
[0002]近年來,棲息地保護受到越來越廣泛的關注,部分地區已大規模部署監控以掌握實時信息。通過分析和識別生態環境中包含的音頻信息,可以為入侵監測、物種勘察等應用提供數據支持。在現實環境中,複雜多變的背景噪聲是普遍存在的,因此,噪聲環境下的生態聲音識別具有重要的實際意義。
[0003]目前語音與音樂分類識別技術較多,而環境聲音的研究相對較少。不同環境包含的音頻信息差別很大,如餐廳,廣場等嘈雜環境中,更多的是說話聲、碰撞聲或車聲等,生態環境中的音頻更側重於動物和自然所產生的聲音。目前有較多方法針對如鳥叫或蛙叫等單類別聲音改進的識別算法,應用範圍較為有限,例如=Chen等人提出頻域特徵多級平均譜(Mult1-StageAverageSpectrum, MSAS),結合音節長度對18種娃類聲音進行兩次識別分類,識別效果優於單獨利用MSAS特徵,但是對於重疊的動物叫聲,音節長度分類顯然不能奏效;Lee等人使用高斯混合模型(GMM)對譜圖形態特徵進行建模,對連續型鳥叫進行分類識別。還有一些多類別生態聲音識別的研究如=Raju等人提取基音,共振峰和短時能量特徵集結合支持向量機(SVM)對包括貓狗獅子在內的19種動物聲音進行分類識別;Zhang等人提取改進的Mel頻率倒譜係數(Mel-FrequencyCepstralCoefficients,MFCCs)作為特徵並使用GMM對多種昆蟲聲音分類識別。
[0004]以上這些方法都存在一些不足之處,GMM和隱馬爾科夫模型(HMM)在語音等結構化聲音上應用較為廣泛,而生態聲音隨機性較大,且並非都是結構化的,所以使用上述產生式模型並不穩定。判別式模型SVM和一些傳統的神經網絡能夠較好的對非線性可分類進行建模,但在高維特徵及類別數量較多時,分類效果還不如GMM或HMM。

【發明內容】

[0005]有鑑於此,本發明的目的是提供一種基於快速稀疏分解和深度學習的生態聲音識別方法。
[0006]本發明採用以下方案實現:一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟:
[0007]SOl:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵;
[0008]S02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵;
[0009]S03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練;
[0010]S04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。
[0011]在本發明一實施例中,假設待分解信號f,長度為N,進行稀疏分解之前,首先構造過完備原子字典D=(gY) Y e r,時頻原子gY是Gabor原子,由參數組Y = (s,u, v,w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子w定義其波形,其離散化時頻參數Y = (s, u, V, w) = (aJ, paJ Δ u, ka_J Δ ν, 1八《0,其中,0〈」(1g2N,O ^ ρ ^ N2_J+1,0 ^ k〈2J+1,012, a=2, Δ u=l/2, Δ v= ji , Δ w= π /6 ;所述步驟 SOI 具
體步驟包括:
[0012]SOll:初始化信號殘差RQf=f,迭代次數k=l,最大迭代次數L ;
[0013]S012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關的原子gYk,
【權利要求】
1.一種基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,包括以下步驟: s01:分別對純淨聲音和測試帶噪聲音進行OMP稀疏分解,對應輸出純淨聲音和測試帶噪聲音的重構信號和OMP特徵; s02:分別對純淨聲音和測試帶噪聲音提取包括OMP特徵在內的複合特徵; s03:對重構後的純淨聲音提取的複合特徵進行DBN模型訓練; s04:對重構後的測試帶噪聲音和訓練後的純淨聲音提取的複合特徵進行DBN模型分類,輸出測試帶噪聲音所屬的生態聲音類別。
2.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,假設待分解信號f,長度為N,進行稀疏分解之前,首先構造過完備原子字典D= (gY)Y e r,時頻原子8¥是Gabor原子,由參數組Y = (s, u, v, w)定義,平移因子u定義一個原子gY的中心位置,伸縮因子S,頻率因子V和相位因子W定義其波形,其離散化時頻參數Y = (S,U,V, w) = (aJ, paJ Δ u, ka_J Δ v, i Δ w),其中,0〈j ^ 1g2N, 0 ^ p ^ N2_J+1,0 ^ k〈2J+1,0 ^ i ^ 12,a=2, Δ u=l/2, Δ V= , Δ w= π/6 ;所述步驟SOI具體步驟包括: s011:初始化信號殘差RtlPf,迭代次數k=l,最大迭代次數L ; s012:從過完備原子字典D中選出第k次迭代與信號殘差最為相關的原子gYk,
3.根據權利要求2所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,所述步驟S012,利用GSO搜索最優原子,具體步驟包括: s001:初始化螢火蟲種群規模n,螢光素Ii,決策域半徑IV最大迭代次數tmax並隨機生成螢火蟲;
s002:根據 Xi (t) = (Si (t),Ui (t),Vi (t),Wi (t))和 f (Xi (t)) = I 計算螢火蟲i在第t次迭代的所處位置Xi⑴的目標值f (Xi⑴),並根據IJt-1)+ηf (Xi⑴)轉化為螢光素值Ii(t),其中,P e (O, I)為螢光素消失率,η e (O, I)為螢光素更新率; s003:每隻螢火蟲i在其動態決策域rj(i)內搜尋螢光素比自身大的個體組成鄰域集Ni (t),Ni(I) = {/: Ciij(J) < 1--(I)JiH) < Ij(J)S) < /;;(/) < /; ,其中 rs 為螢火蟲決策域的最大值; s004:計算螢火蟲個體i向鄰域集Ni⑴內任一個體j移動的概率Pij,
4.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於,所述步驟S02具體為:提取包括OMP特徵、MFCCs特徵和基音特徵的複合特徵;其中,提取OMP特徵的方法具體為利用OMP分解每一幀聲音信號,獲得表示該幀信號的支撐集前L個原子時頻參數組中伸縮因子s和頻率因子V的均值和標準差,構成4維OMP特徵,
5.根據權利要求4所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:選取MFCCs補充OMP特徵使用,首先採用24階Mel濾波器組,對重構信號作離散傅立葉變換後得到12維MFCCs靜態特徵,再加上對數能量作為其第13維特徵。
6.根據權利要求4所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:選取PITCH補充OMP特徵使用,採用循環平均幅度差函數法獲得每幀對應的I維PITCH特徵。
7.根據權利要求1所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:所述DBN模型訓練包括兩個步驟,第一步採用無監督逐層貪心的策略進行預訓練,將已標記好的生態聲音特徵初始化DBN最底層的可見層節點的狀態值,這樣使得具體特徵逐漸抽象化;第二步使用正確標註信息有監督的訓練BP網絡,並將修正信息自頂向下的傳播至每一層RBM進行微調。
8.根據權利要求7所述的基於快速稀疏分解和深度學習的生態聲音識別方法,其特徵在於:RBM網絡採用ContrastiveDivergence準則作為自訓練策略,每層均由一個可視層V和隱層H組成,通過自底向上的層間加權連接組合多個RBM,用隱層單元的輸出作為上層RBM可視層的輸入,從而構建一個DBN框架,RBM包含三個參數,分別是可見層和隱層之間的權值W,以及各自偏置量b和C,因此對DBN分類器訓練的過程轉化為對RBM參數的求解,假設可視層和隱層的節點值分別為Vi和hp可視層V每一個節點置I的概率為
【文檔編號】G10L17/04GK103531199SQ201310472330
【公開日】2014年1月22日 申請日期:2013年10月11日 優先權日:2013年10月11日
【發明者】李應, 歐陽楨 申請人:福州大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀