一種快速音頻檢索的方法
2023-06-16 17:41:36 5
專利名稱:一種快速音頻檢索的方法
技術領域:
本發明涉及一種音頻檢索的方法。
背景技術:
在音頻檢索領域,現有的經典算法是基於子帶能量的直方圖法,該方法採
用7通道的IIR濾波器得到一系列子帶能量的參數,繼而生成直方圖,然後在 檢索過程當中動態地濾除大量不可能的匹配點,來達到快速檢索的目的,目前 該方法的檢索速度已達O. 3秒檢索200小時(CPU Pentium IV 2.0GHz)。 [1]
現有的基於子帶能量的直方圖法的檢索速度雖然較其它方法的檢索速度 有明顯的提高,但如果在一個極其龐大的音頻庫中查詢一個音頻段仍需花費較 長的時間,其檢索速度無法滿足使用要求。無疑檢索速度是越快越好。
參考文獻[1] Kimura & Kashino , A Quick Search Method for Audio Signals Based on a Piecewise Linear Representation of Feature Trajectories, IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, 2008, 2。
發明內容
本發明的目的是提供一種快速音頻檢索的方法,以進一步提高音頻檢索的 速度。
本發明為解決上述技術問題採取的技術方案是 一種快速音頻檢索的方 法,所述方法經過預處理階段後進入檢索階段;
所述預處理階段的過程為-
步驟A1、對音頻庫提取MFCC參數對待查詢的音頻庫的音頻信號進行特 徵提取,獲得特徵信息;所獲得的特徵信息用aXm的矩陣表示,a為大於6且小於等於30的整數;m、 n均為整數,m》n, n^4;特徵提取時,幀長為2 3s,幀移為O. 2 0. 3s;
按所述的幀長、幀移,將所述aXm的矩陣分成若干個aXn的矩陣,每個 矩陣為一幀;n為整數,n^4;
步驟A2、對查詢音頻段(檢索目標)提取MFCC參數按步驟A1所述的 幀長、幀移,對查詢音頻段的音頻信號進行特徵提取,獲得特徵信息;所獲得 的特徵信息為一幀,用一個12Xn的矩陣表示,n為整數,n^4;
步驟A3、分類將步驟Al中的所述若干個幀分為32類;按每幀的前X 列的元素分類,X可取3 4;
步驟A4、按步驟A3中劃分的類別對所述查詢音頻段進行歸類;
所述檢索階段的檢索過程為查看查詢音頻段的類別、粗檢索和精檢索;
査看査詢音頻段的類別
步驟B1、開始檢索,取新的一幀,所述幀為待查詢的音頻庫中的幀;
步驟B2、判斷步驟B1中所述幀是否到幀尾;如果是,結束此次查看查詢 音頻段的類別的過程;否則,執行步驟B3;
步驟B3、判斷類別是否匹配;判斷查詢音頻段所對應的幀與待查詢的音 頻庫中的當前幀的類別是否匹配;
如果是,執行步驟B4;否則,執行步驟B1;
粗檢索
步驟B4、取特徵參數中的一個新元素取待査詢的音頻庫中匹配幀中的 一個新元素;
步驟B5、計算待查詢的音頻庫中匹配幀中的一個新元素與査詢音頻段對 應元素的距離;步驟B6、判斷步驟B5中所得距離是否大於門限;如果是,執行步驟B1;
否則,執行步驟B7;
步驟B7、計算待査詢的音頻庫中匹配幀中下一個特徵參數元素的距離; 步驟B8、判斷是否取到的是最後一個元素;所述最後一個元素是指所述
幀的前Y列的最後一個元素,Y可取2 8;如果是,執行步驟B9;否則,執
行步驟B4;
步驟B9、記錄下該幀的位置,存入位置數組中;
精檢索
步驟BIO、取位置數組中新的一幀;
步驟Bll、判斷步驟B10中所述幀是否到幀尾;如果是,結束此次檢索; 否則,執行步驟B12;
步驟B12、計算與査詢音頻段特徵矩陣的距離;所述距離是指査詢音頻段 特徵矩陣與所對比的特徵矩陣的各個對應元素差的平方和。
步驟B13、判斷是否大於門限;如果是,執行步驟B10;否則,執行步驟
B14;
步驟B14、找到目標;然後再執行步驟BIO,直到結束此次檢索。
本發明的有益效果是本發明採用了粗檢索和精檢索相結合的方法,提高 了檢索速度和正確率,正確率的計算公式為正確率二100%-(虛警率+漏檢率)
/2。如圖6所示,用本發明方法的速度為4ms檢索8. 5小時,速度換算過後比 經典方法快了大約3倍(PentiumM1.6GHz)。本發明由於採用了粗檢索和精 檢索相結合的方法,尤其是粗檢索的引入,使本發明方法在保證正確率的前提 下,可實現較大的幀長和幀移。用本發明方法檢索時幀長為2 3s,幀移為 0.2 0.3s;而常用的幀長是25ms,幀移是10ms,因此提高了檢索速度。
圖l是本發明的預處理階段和檢索階段的總體框圖(方框內為預處理階
段),圖2是本發明檢索階段的查看査詢音頻段的類別階段和粗檢索階段的流程 圖,圖3是本發明檢索階段的精檢索階段的流程圖,圖4是計算特徵向量對應元 素部分的示意圖,圖5是提取特徵參數示意圖;圖6是本發明的檢索精度對比圖 (橫座標為表示信號比噪聲大的數值,單位為分貝;縱座標為檢出率,帶星點 的曲線是背景技術中所述方法檢索正確率曲線圖),圖7是MFCC的計算過程流程 圖。
具體實施例方式
具體實施方式
一如圖1 5所示,本實施方式所述的快速音頻檢索的方 法經過預處理階段後進入檢索階段; 所述預處理階段的過程為
步驟A1、對音頻庫提取MFCC參數對待查詢的音頻庫的音頻信號進行特 徵提取,獲得特徵信息;所獲得的特徵信息用aXm的矩陣表示,a為大於6 且小於等於30的整數;m、 n均為整數,m》n, n^4;特徵提取時,幀長為2 3s,幀移為O. 2 0. 3s;
按所述的幀長、幀移,將所述aXm的矩陣分成若干個aXn的矩陣,每個 矩陣為一幀;n為整數,n》4;
步驟A2、對査詢音頻段(檢索目標)提取MFCC參數按步驟A1所述的 幀長、幀移,對査詢音頻段的音頻信號進行特徵提取,獲得特徵信息;所獲得 的特徵信息為一幀,用一個12Xn的矩陣表示,n為整數,n》4;
步驟A3、分類將步驟Al中的所述若干個幀分為32類;按每幀的前X 列的元素分類,X可取3 4;步驟A4、按步驟A3中劃分的類別對所述查詢音頻段進行歸類; 所述檢索階段的檢索過程為査看査詢音頻段的類別、粗檢索和精檢索; 查看査詢音頻段的類別-
步驟B1、開始檢索,取新的一幀,所述幀為待査詢的音頻庫中的幀; 步驟B2、判斷步驟B1中所述幀是否到幀尾;如果是,結束此次査看査詢
音頻段的類別的過程;否則,執行步驟B3;
步驟B3、判斷類別是否匹配;判斷査詢音頻段所對應的幀與待查詢的音
頻庫中的當前幀的類別是否匹配;
如果是,執行步驟B4;否則,執行步驟B1; 粗檢索
步驟B4、取特徵參數中的一個新元素取待査詢的音頻庫中匹配幀中的 一個新元素;
步驟B5、計算待查詢的音頻庫中匹配幀中的一個新元素與查詢音頻段對 應元素的距離;
步驟B6、判斷步驟B5中所得距離是否大於門限;如果是,執行步驟B1;
否則,執行步驟B7;
步驟B7、計算待査詢的音頻庫中匹配幀中下一個特徵參數元素的距離; 步驟B8、判斷是否取到的是最後一個元素;所述最後一個元素是指所述
幀的前Y列的最後一個元素,Y可取2 8;如果是,執行步驟B9;否則,執
行步驟B4;
步驟B9、記錄下該幀的位置,存入位置數組中; 精檢索
步驟BIO、取位置數組中新的一幀;步驟Bll、判斷步驟B10中所述幀是否到幀尾;如果是,結束此次檢索; 否則,執行步驟B12;
步驟B12、計算與查詢音頻段特徵矩陣的距離;所述距離是指查詢音頻段 特徵矩陣與所對比的特徵矩陣的各個對應元素差的平方和。
步驟B13、判斷是否大於門限;如果是,執行步驟B10;否則,執行步驟
B14;
步驟B14、找到目標;然後再執行步驟BIO,直到結束此次檢索。 提取特徵參數,如圖5所示, 一般來說音頻信號的特徵是按幀提取的,即
截取一定時間長度的信號當作一幀,計算其特徵參數,再平移一定距離(稱為 幀移),繼續截取下一幀,以此類推。
本方案採用具有很強魯棒性的MFCC(Mel Frequency C印stral Coefficient)參數為特徵,由於這個特點,使得在提取特徵的時候,可以跳躍 較大地提取,也就是說幀移可以取得較大,這樣可以減少後期檢索時所需計算 的數據量。在本實驗中,採用24個Mel濾波器組和DCT變換得到的12階MFCC。 幀長可為2. 5s,幀移可為0.25s。
對所得到的MFCC利用VQ (Vector Quantization矢量量化)進行分類, 本方案採用的方法是將之前提取的MFCC參數,每36個一組進行VQ (如果取 12階MFCC的前三列即為36元素),目的還是提高抗幹擾性,VQ碼本選擇為 32 (即在步驟A3中所述的32類)。
在檢索階段,本方案的優勢也就是極大地提高了此階段的速度。在檢索階 段,首先根據查詢音頻段的類別,只在特徵庫中尋找相應類別的特徵即可,其 他類別的不予査找。然後,在該類別下逐個比較每一幀特徵參數中的每個元素 (以前沒有人這麼做,以前的方法是將特徵參數整個進行匹配),如差值大於一個預先設定的門限,即刪除該幀,繼續判斷下一幀。最後,根據保留下來的 幀的位置,逐一計算與査詢音頻段參數的距離(距離越小代表相似度越大), 當小於某一給定門限,則判斷為目標。
關於MFCC參數
美爾頻標倒譜係數(MFCC)考慮了人耳的聽覺特性,將頻譜轉化為基於Mel 頻標的非線性頻譜,然後轉換到倒譜域上。由於充分考慮了人的聽覺特性,而 且沒有任何前提假設,MFCC參數具有良好的識別性能和抗噪能力。
MFCC是採用濾波器組的方法計算出來的,這組濾波器在頻率的美爾坐標上 是等帶寬的。這是因為人類在對約1000Hz以上的聲音頻率範圍的感知不遵循線 性關係,而是遵循在對數頻率坐標上的近似線性關係。根據聲學測量結果可給 出Mel頻率映射函數
formula see original document page 11
f為普通頻率,mel為美爾坐標頻率; 其計算過程如圖7所示;
1. 原始語音信號進過加窗分幀後,得到每個語音幀的時域信號
2. 將時域信號後補若干個零以形成長為N的序列,然後經過DFT後得到線 性頻譜,轉換公式為
formula see original document page 11
在實際應用中,常常通過FFT過程加以計算,其中N—般稱之為DFT(或FFT) 窗寬。
3. 將上述線性頻譜通過Mel頻率濾波器組得到Mel頻譜,並通過對數能的處理,得到對數頻譜。
4.將上述對數頻譜經過離散餘弦變換(DCT)變換到倒譜頻譜域,即可得 到Mel頻率倒譜係數(MFCC參數), 一般係數取12-16個左右,MFCC係數為
5.將這種直接得到的MFCC係數作為靜態特徵,再將這種靜態特徵做一階 和二階差分,得到相應的動態特徵。
該美爾倒譜係數受到濾波器組中濾波器個數、形狀、分布及能量譜等各因 素的影響。
由於考慮到魯棒性,本方案中MFCC只取靜態特徵,不取動態特徵。
具體實施方式
二如圖1 5所示,本實施方式在步驟A1中,特徵提取時, 幀長為2. 5s,幀移為0. 25s,這樣可在保證檢索精度的同時提高檢索速度。其 它步驟與具體實施方式
一相同。
具體實施方式
三如圖1 5所示,本實施方式所述在步驟A1中,a取12。 在本方法中,採用24個Mel濾波器組和DCT變換得到的12階MFCC。其它步 驟與具體實施方式
一相同。
具體實施方式
四如圖1 5所示,本實施方式在步驟B8中,所述最後一 個元素是指所述幀的前4列的最後一個元素。粗檢索取前4列矩陣的原因是, 如果列數過多可能會使檢索速度降低並增大漏檢概率,如果列數過少會導致不 能有效篩選。其它步驟與具體實施方式
一相同。
1權利要求
1、一種快速音頻檢索的方法,所述方法經過預處理階段後進入檢索階段,其特徵在於所述預處理階段的過程為步驟A1、對音頻庫提取MFCC參數對待查詢的音頻庫的音頻信號進行特徵提取,獲得特徵信息;所獲得的特徵信息用a×m的矩陣表示,a為大於6且小於等於30的整數;m、n均為整數,m>>n,n≥4;特徵提取時,幀長為2~3s,幀移為0.2~0.3s;按所述的幀長、幀移,將所述a×m的矩陣分成若干個a×n的矩陣,每個矩陣為一幀;n為整數,n≥4;步驟A2、對查詢音頻段提取MFCC參數按步驟A1所述的幀長、幀移,對查詢音頻段的音頻信號進行特徵提取,獲得特徵信息;所獲得的特徵信息為一幀,用一個12×n的矩陣表示,n為整數,n≥4;步驟A3、分類將步驟A1中的所述若干個幀分為32類;按每幀的前X列的元素分類,X可取3~4;步驟A4、按步驟A3中劃分的類別對所述查詢音頻段進行歸類;所述檢索階段的檢索過程為查看查詢音頻段的類別、粗檢索和精檢索;查看查詢音頻段的類別步驟B1、開始檢索,取新的一幀,所述幀為待查詢的音頻庫中的幀;步驟B2、判斷步驟B1中所述幀是否到幀尾;如果是,結束此次查看查詢音頻段的類別的過程;否則,執行步驟B3;步驟B3、判斷類別是否匹配;判斷查詢音頻段所對應的幀與待查詢的音頻庫中的當前幀的類別是否匹配;如果是,執行步驟B4;否則,執行步驟B1;粗檢索步驟B4、取特徵參數中的一個新元素取待查詢的音頻庫中匹配幀中的一個新元素;步驟B5、計算待查詢的音頻庫中匹配幀中的一個新元素與查詢音頻段對應元素的距離;步驟B6、判斷步驟B5中所得距離是否大於門限;如果是,執行步驟B1;否則,執行步驟B7;步驟B7、計算待查詢的音頻庫中匹配幀中下一個特徵參數元素的距離;步驟B8、判斷是否取到的是最後一個元素;所述最後一個元素是指所述幀的前Y列的最後一個元素,Y可取2~8;如果是,執行步驟B9;否則,執行步驟B4;步驟B9、記錄下該幀的位置,存入位置數組中;精檢索步驟B10、取位置數組中新的一幀;步驟B11、判斷步驟B10中所述幀是否到幀尾;如果是,結束此次檢索;否則,執行步驟B12;步驟B12、計算與查詢音頻段特徵矩陣的距離;所述距離是指查詢音頻段特徵矩陣與所對比的特徵矩陣的各個對應元素差的平方和。步驟B13、判斷是否大於門限;如果是,執行步驟B10;否則,執行步驟B14;步驟B14、找到目標;然後再執行步驟B10,直到結束此次檢索。
2、根據權利要求1所述的一種快速音頻檢索的方法,其特徵在於在步驟A1中,特徵提取時,幀長為2.5s,幀移為0.25s。
3、 根據權利要求1所述的一種快速音頻檢索的方法,其特徵在於在步 驟A1中,a取12。
4、 根據權利要求1所述的一種快速音頻檢索的方法,其特徵在於在步 驟B8中,所述最後一個元素是指所述幀的前4列的最後一個元素。
全文摘要
一種快速音頻檢索的方法,它涉及一種音頻檢索的方法。本發明的目的是提供一種快速音頻檢索的方法,以進一步提高音頻檢索的速度。本發明所述的快速音頻檢索的方法經過預處理階段後進入檢索階段;所述預處理階段的過程為對音頻庫提取MFCC參數、分類、對查詢音頻段(檢索目標)提取MFCC參數、按劃分的類別對所述查詢音頻段進行歸類;所述檢索階段的檢索過程為查看查詢音頻段的類別、粗檢索、精檢索。用本發明方法的速度為4ms檢索8.5小時,速度換算過後比經典方法快了大約3倍(Pentium M 1.6GHz)。
文檔編號G06F17/30GK101566999SQ20091007216
公開日2009年10月28日 申請日期2009年6月2日 優先權日2009年6月2日
發明者任廣輝, 吳靜龍 申請人:哈爾濱工業大學