音頻文件檢索方法、系統和音頻文件類型識別方法、系統的製作方法
2023-05-20 11:08:56 2
專利名稱:音頻文件檢索方法、系統和音頻文件類型識別方法、系統的製作方法
技術領域:
本發明涉及音頻文件檢索技術領域,尤其涉及音頻文件檢索方法、系統和音頻文件類型識別方法、系統。
背景技術:
音頻文件檢索的核心任務是基於音頻文件庫檢索出滿足用戶需求的音頻文件。目前,音頻文件檢索系統只能根據用戶提供的音頻文件名稱、歌手名字等音頻文件的屬性特徵檢索音頻文件,這種方法存在如下的缺點首先,當用戶不知道音頻文件的名稱、歌手名字等屬性特徵,而僅僅能哼出曲調時,現有的音頻檢索系統無法根據曲調檢索出相應的音頻文件。再者,當用戶並不是想找某個確定的音頻文件,而是想找能夠表達某種意境的音頻文件時,現有的音頻檢索系統也無法檢索出相應的音頻文件。另外,如果對所有音頻文件採用人工方法進行意境類型識別,將耗費大量的人力, 且效率較低。
發明內容
有鑑於此,本發明提供了音頻文件檢索方法、系統和音頻文件類型識別方法、系統,以便能夠根據曲調檢索音頻文件、或者能夠檢索出屬於某種類型的音頻文件、或者提高識別音頻文件屬於哪一類型的效率。一種音頻文件檢索方法,該方法包括預先確定音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch 係數;提取待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配結果從音頻文件庫中檢索出音頻文件。一種音頻文件檢索系統,該系統包括音頻文件庫、音頻特徵提取模塊、匹配模塊和檢索模塊;所述音頻文件庫,存儲有各個音頻文件的倒譜頻率MFCC係數和/或音律特徵 Pitch係數;所述音頻特徵提取模塊,提取待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述匹配模塊,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配;所述檢索模塊,根據所述匹配模塊的匹配結果從音頻文件庫中檢索出音頻文件。
6
一種音頻文件類型識別方法,該方法包括在特徵庫中存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;提取待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別出所述待識別音頻文件的音頻類型。一種音頻文件類型識別系統,該系統包括特徵庫、音頻特徵提取模塊、匹配模塊和類型識別模塊;所述特徵庫,存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述音頻特徵提取模塊,提取待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述匹配模塊,將待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配;所述類型識別模塊,根據所述匹配模塊得到的匹配度以及特徵音頻文件所屬的音頻類型識別出所述待識別音頻文件的音頻類型。一種音頻文件檢索方法,該方法包括在特徵庫中存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;預先提取音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch 係數,將音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別並存儲音頻文件庫中音頻文件的音頻類型;接收待檢索的音頻類型,根據存儲的音頻文件庫中音頻文件的音頻類型,檢索出屬於所述待檢索的音頻類型的音頻文件。一種音頻文件檢索系統,該系統包括特徵庫、音頻文件類型識別模塊、音頻文件類型存儲模塊和檢索模塊;所述特徵庫,存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述音頻文件類型識別模塊,預先提取音頻文件庫中的音頻文件的倒譜頻率MFCC 係數和/或音律特徵Pitch係數,將音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別音頻文件庫中音頻文件的音頻類型;所述音頻文件類型存儲模塊,根據所述音頻文件類型識別模塊的識別結果存儲音頻文件庫中音頻文件的音頻類型;所述檢索模塊,接收待檢索的音頻類型,根據所述音頻文件類型存儲模塊中存儲的各音頻文件的音頻類型,檢索出屬於所述待檢索的音頻類型的音頻文件。
由上述技術方案可見,本發明通過提取音頻文件的音頻特徵數據,即MFCC係數和 Pitch係數,比較待檢索音頻文件的音頻特徵數據和音頻庫中音頻文件的音頻特徵數據,使得音頻檢索系統能夠根據曲調檢索音頻文件。當本發明通過匹配音頻庫中每個音頻文件的音頻特徵數據與特徵庫中各個類型的特徵音頻文件的音頻特徵數據,根據匹配結果識別某一音頻文件屬於哪一類型的音頻文件時,由於不需要人工對每個音頻文件進行識別,因此能夠提高識別音頻文件屬於哪一類型的效率。還可以採用本發明提供的音頻類型識別方法識別出音頻文件庫中各個音頻文件的音頻類型並存儲每個音頻文件的音頻類型,從而能夠根據待檢索的音頻類型檢索出相應的音頻文件。
圖1是本發明提供的音頻文件檢索方法流程圖。圖2是MFCC係數的提取方法流程。圖3是Pitch係數的提取方法流程。圖4是本發明提供的音頻文件檢索系統組成示意圖。圖5是本發明提供的音頻文件類型識別方法流程圖。圖6是本發明提供的音頻文件類型識別系統組成示意圖。圖7是本發明提供的音頻文件檢索方法流程圖。圖8是本發明提供的音頻文件檢索系統組成示意圖。
具體實施例方式圖1是本發明提供的音頻文件檢索方法流程圖。如圖1所示,該方法包括步驟101,預先確定音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和音律特徵 Pitch係數。步驟102,提取待檢索音頻文件的倒譜頻率MFCC係數和音律特徵Pitch係數。步驟103,將待檢索音頻文件的倒譜頻率MFCC係數和音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和音律特徵Pitch係數進行匹配。步驟104,根據匹配結果從音頻文件庫中檢索出音頻文件。其中,Mel倒譜頻率係數(MFCC)是基於人耳的聽覺特性提出的,它採用一種非線性的頻率單位(Mel頻率)來模擬人的聽覺系統。聲學研究表明,MFCC係數能較好地反應音頻特徵。圖1所示方法進行音頻文件檢索所依據的音頻特徵數據包括音頻文件的MFCC係數和Pitch係數,在實際應用中,也可以僅依據MFCC係數或僅依據Pitch係數。圖2是MFCC係數的提取方法流程。如圖2所示,該方法包括步驟201,對輸入的待檢索音頻文件信號進行預加重處理。預加重的目的是使信號的頻譜變得平坦,保持從低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,以便於頻譜分析或聲道參數分析。具體可以採用現有技術進行預加重。步驟202,對預加重處理後的信號進行加窗處理。語音信號是一種典型的非平穩信號,一般使用窗函數(比如漢明窗)截取其中一段來進行分析,截取出來的那部分信號被認為是短時平穩的。步驟203,將加窗處理後的信號變換成頻域信號。本步驟中,可以通過快速傅立葉變換(FFT變換)或者離散傅立葉變換(DFT變換) 將加窗後的信號變換成頻域信號。步驟204,將所述頻域信號轉換成對數量。步驟205,對轉換為對數量的頻域信號進行濾波處理。步驟206,將濾波處理後的頻域信號變換成時域信號,該時域信號是倒譜頻率 MFCC係數。本步驟中,將濾波處理後的頻域信號進行離散餘弦變換(DCT變換)得到時域信號,該時域信號就是MFCC係數。圖3是Pitch係數的提取方法流程。如圖3所示,該方法包括步驟301,對輸入的音頻時域信號進行預加重和加窗處理,將加窗處理後的時域信號變換成頻域信號。步驟302,確定頻域信號的主諧波頻率。本步驟可以採用現有技術實現計算頻域信號在每個頻率上的振幅值,振幅值越大其能量越高,提取每一幀信號的能量最大採用點對應的頻率值,該值為該幀信號的主諧波頻率。步驟303,將主諧波頻率映射到八度音程中各個音的基本頻率,根據映射結果確定步驟301中輸入的音頻時域信號的音高旋律。表一是八度音程表
權利要求
1.一種音頻文件檢索方法,其特徵在於,該方法包括預先確定音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;提取待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配結果從音頻文件庫中檢索出音頻文件。
2.根據權利要求1所述的方法,其特徵在於,提取待檢索音頻文件的倒譜頻率MFCC係數包括對輸入的待檢索音頻文件信號進行預加重和加窗處理,然後將加窗處理後的信號變換成頻域信號,對所述頻域信號進行濾波處理,將濾波處理後的頻域信號變換成時域信號,該時域信號是倒譜頻率MFCC係數。
3.根據權利要求1所述的方法,其特徵在於,提取待檢索音頻文件的音律特徵Pitch係數包括對輸入的待檢索音頻文件信號進行預加重和加窗處理,然後將加窗處理後的信號變換成頻域信號,提取所述頻域信號的主諧波頻率,將主諧波頻率映射到八度音程表,根據映射結果得到待檢索音頻文件的Pitch係數。
4.根據權利要求1所述的方法,其特徵在於,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配結果從音頻文件庫中檢索出音頻文件包括確定將待檢索音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為音頻文件庫中音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷,比較音頻文件庫的各個音頻文件對應的所述最小開銷,將各個所述最小開銷中值最小的最小開銷對應的音頻文件確定為檢索結果。
5.根據權利要求4所述的方法,其特徵在於,所述確定將待檢索音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為音頻文件庫中音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷包括確定將待檢索音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為音頻文件庫中音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數需要執行的操作序列、 以及每種操作類型產生的最小開銷;按照所述操作序列中各個操作的順序,依次迭代相應操作類型產生的最小開銷,根據迭代結果得到將待檢索音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為音頻文件庫中音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷。
6.根據權利要求5所述的方法,其特徵在於,假設待檢索音頻文件的倒譜頻率係數 MFCC或音律特徵Pitch係數用序列x[i]表示,音頻文件庫中音頻文件的倒譜頻率MFCC係數或音律特徵Pitch係數用序列y[j]表示,將序列x[i]轉換為序列y[j]的最小開銷是 c[i,j],i和j都是自然數,則確定每種操作類型產生的最小開銷包括將序列x[i]轉換為序列y[j]的最後一次操作是拷貝時,c[i,j]等於c[i-l,j-1]與拷貝操作所需的最小開銷之和;將序列x[i]轉換為序列y[j]的最後一次操作是替換時,c[i,j]等於c[i-l,j-1]與替換操作所需的最小開銷之和;將序列x[i]轉換為序列y[j]的最後一次操作是刪除時,c[i,j]等於c[i-l,j]與刪除操作所需的最小開銷之和;將序列x[i]轉換為序列y[j]的最後一次操作是插入時,c[i,j]等於c[i,j-1]與插入操作所需的最小開銷之和;將序列x[i]轉換為序列y[j]的最後一次操作是互換時,c[i, j]等於c[i-2,j-2]與互換操作所需的最小開銷之和;刪除序列x[i]中的第一字符串並插入序列y[j]中長度為s的第二字符串所需的最小開銷等於刪除第一字符串所需的最小開銷與s個插入操作所需的最小開銷之和。
7.一種音頻文件檢索系統,其特徵在於,該系統包括音頻文件庫、音頻特徵提取模塊、 匹配模塊和檢索模塊;所述音頻文件庫,存儲有各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述音頻特徵提取模塊,提取待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵 Pitch係數;所述匹配模塊,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配;所述檢索模塊,根據所述匹配模塊的匹配結果從音頻文件庫中檢索出音頻文件。
8.一種音頻文件類型識別方法,其特徵在於,該方法包括在特徵庫中存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;提取待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率 MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別出所述待識別音頻文件的音頻類型。
9.根據權利要求8所述的方法,其特徵在於,所述根據匹配度以及特徵音頻文件所屬的音頻類型識別出所述待識別音頻文件的音頻類型包括確定每種類型的特徵音頻文件中與所述待識別音頻文件的匹配度大於預定數值的特徵音頻文件個數,將待識別音頻文件的類型識別為所述特徵音頻文件個數大於預定數值、或者排在前N 位的音頻類型。
10.根據權利要求8或9所述的方法,其特徵在於,所述將待識別音頻文件的倒譜頻率 MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配包括確定將待識別音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷,該最小開銷的值越小則該待識別音頻文件與該特徵音頻文件的匹配度越高。
11.根據權利要求10所述的方法,其特徵在於,所述確定將待識別音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷包括確定將待識別音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數需要執行的操作序列、以及每種操作類型產生的最小開銷;按照所述操作序列中各個操作的順序,依次迭代相應操作類型產生的最小開銷,根據迭代結果得到將待識別音頻文件的倒譜頻率係數MFCC和/或音律特徵Pitch係數轉換為特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數產生的最小開銷。
12.—種音頻文件類型識別系統,其特徵在於,該系統包括特徵庫、音頻特徵提取模塊、 匹配模塊和類型識別模塊;所述特徵庫,存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述音頻特徵提取模塊,提取待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵 Pitch係數;所述匹配模塊,將待識別音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配;所述類型識別模塊,根據所述匹配模塊得到的匹配度以及特徵音頻文件所屬的音頻類型識別出所述待識別音頻文件的音頻類型。
13.根據權利要求12所述的系統,其特徵在於,所述類型識別模塊,確定每種類型的特徵音頻文件中與所述待識別音頻文件的匹配度大於預定數值的特徵音頻文件個數,將待識別音頻文件的類型識別為所述特徵音頻文件個數大於預定數值、或者排在前N位的音頻類型。
14.一種音頻文件檢索方法,其特徵在於,該方法包括在特徵庫中存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;預先提取音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數, 將音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別並存儲音頻文件庫中音頻文件的音頻類型;接收待檢索的音頻類型,根據存儲的音頻文件庫中音頻文件的音頻類型,檢索出屬於所述待檢索的音頻類型的音頻文件。
15.一種音頻文件檢索系統,其特徵在於,該系統包括特徵庫、音頻文件類型識別模塊、 音頻文件類型存儲模塊和檢索模塊;所述特徵庫,存儲各種音頻類型對應的特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;所述音頻文件類型識別模塊,預先提取音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將音頻文件庫中的音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與每個特徵音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配度以及特徵音頻文件所屬的音頻類型識別音頻文件庫中音頻文件的音頻類型;所述音頻文件類型存儲模塊,根據所述音頻文件類型識別模塊的識別結果存儲音頻文件庫中音頻文件的音頻類型;所述檢索模塊,接收待檢索的音頻類型,根據所述音頻文件類型存儲模塊中存儲的各音頻文件的音頻類型,檢索出屬於所述待檢索的音頻類型的音頻文件。
全文摘要
本發明提供了音頻文件檢索方法、系統和音頻文件類型識別方法、系統。該音頻文件檢索方法包括預先確定音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數;提取待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數,將待檢索音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數與音頻文件庫中各個音頻文件的倒譜頻率MFCC係數和/或音律特徵Pitch係數進行匹配,根據匹配結果從音頻文件庫中檢索出音頻文件。應用本發明能夠根據曲調檢索音頻文件、或者能夠檢索出屬於某種類型的音頻文件、或者提高識別音頻文件屬於哪一類型的效率。
文檔編號G10L15/26GK102375834SQ20101025698
公開日2012年3月14日 申請日期2010年8月17日 優先權日2010年8月17日
發明者肖力豪 申請人:騰訊科技(深圳)有限公司