一種實現數字音頻自動分類的方法
2023-07-28 20:17:11
一種實現數字音頻自動分類的方法
【專利摘要】本發明公開了一種實現數字音頻自動分類的方法,該方法具體包括:對音頻信號進行預處理,所述預處理包括:預加重處理、分幀處理以及加窗處理;提取音頻特徵,所述音頻特徵包括:頻譜質心、擴頻、頻譜平坦度、頻譜變遷參數、短時能量、基音頻率以及Mel頻率倒譜係數(MFCC)和MFCC一階差分;根據音頻特徵進行檢索分類,找到相似音頻。本發明克服了現有技術中通過採用單一的音頻特徵對音頻進行檢索所帶來的誤差問題,並且其計算過程簡單,易於在現實中進行應用,檢索的效率較高。
【專利說明】一種實現數字音頻自動分類的方法
【技術領域】
[0001]本發明屬於音頻檢索【技術領域】,具體涉及一種實現數字音頻自動分類的方法的設計。
【背景技術】
[0002]如今網絡媒體中存有海量的數字音頻,從其中找出有相同或相似特徵的文件是一件困難的事,目前普遍的做法是根據文件名稱、歌手或學說人、標籤等文本信息來辨別,而這樣做有很大的主觀性,從而使得到的結果並不準確。基於內容的音頻特徵抽取則能克服這些缺點,由於音頻數據樣本的數據量過大,並不適合直接用於自動分類,因此必須從這個數值序列中提取相應特徵,常用的音頻特徵大致可以分成三類:時域特徵、頻域特徵和聲學感知特徵。
[0003]時域特徵僅僅利用音頻信號在時域上的信息,在提取時不需要特別的轉換,處理時間短。常見的時域特徵包括:短時過零率、平均能量、自相關函數、短時平均幅度差函數等。頻域特徵需要將時域波形信號轉換到頻譜或倒譜域,然後進行計算。常見的頻域特徵有:頻譜質心、帶寬、頻率等。聲學感知特徵是一些聲學上定義的概念,考慮了人的聽覺感知特點,但通常計算比較複雜。所以在現有技術中,採用不同上述三種特徵實現的音頻分類的方法都存在某一方面取得較好的效果,而在另一方面表現欠佳,缺少一種能夠整合上述三種特徵各自優點的音頻分類方法。
【發明內容】
[0004]本發明的目的是為了解決現有技術中音頻分類方法存在的缺點而提供一種實現數字音頻自動分類的方法。
[0005]本發明的技術方案是:一種實現數字音頻自動分類的方法,具體包括:
[0006]S1、對音頻信號進行預處理,所述預處理包括:預加重處理、分幀處理以及加窗處理;
[0007]S2、提取音頻特徵,所述音頻特徵包括:頻譜質心、擴頻、頻譜平坦度、頻譜變遷參數、短時能量、基音頻率以及Mel頻率倒譜係數(MFCC)和MFCC —階差分;
[0008]S3、根據音頻特徵進行檢索分類,找到相似音頻。
[0009]進一步的,所述步驟SI具體為:
[0010]S11、預加重處理: 用提升高頻特性的預加重數字濾波器來實現;
[0011]S12、分幀處理:對音頻信號進行分幀處理;
[0012]S13、加窗處理:設音頻幀信號為X (η),窗函數為w (η),加窗後的信號為:y (η) =x (n) *w (η);其中,0 £η〈Ν, N為每幀的取樣數。
[0013]更進一步的, 所述步驟SI中的預加重處理中的預加重數字濾波器為6dB/倍頻程,預加重係數取0.97,所述分幀處理中的幀長取25ms,幀移取12ms,所述加窗處理中採用漢明窗進行加窗處理。[0014]進一步的,所述步驟S2具體為:
[0015]S21、計算頻譜質心,其公式具體為:
【權利要求】
1.一種實現數字音頻自動分類的方法,其特徵在於,具體包括: S1、對音頻信號進行預處理,所述預處理包括:預加重處理、分幀處理以及加窗處理; S2、提取音頻特徵,所述音頻特徵包括:頻譜質心、擴頻、頻譜平坦度、頻譜變遷參數、短時能量、基音頻率以及Mel頻率倒譜係數(MFCC)和MFCC —階差分; S3、根據音頻特徵進行檢索分類,找到相似音頻。
2.如權利要求1所述的一種實現數字音頻自動分類的方法,其特徵在於,所述步驟SI具體為: S11、預加重處理:用提升高頻特性的預加重數字濾波器來實現; S12、分幀處理:對音頻信號進行分幀處理; S13、加窗處理:設音頻幀信號為X(η),窗函數為w (η),加窗後的信號為:y (η) =x(n)*w(η);其中,O £η〈Ν, N為每幀的取樣數。
3.如權利要求2所述的一種實現數字音頻自動分類的方法,其特徵在於,所述步驟SI中的預加重處理中的預加重數字濾波器為6dB/倍頻程,預加重係數取0.97,所述分幀處理中的幀長取25ms,幀移取12ms,所述加窗處理中米用漢明窗進行加窗處理。
4.如權利要求1所述的一種實現數字音頻自動分類的方法,其特徵在於,所述步驟S2具體為: S21、計算頻譜質心,其公式具體為
5.如權利要求1所述的一種實現數字音頻自動分類的方法,其特徵在於,所述步驟S3具體為: S31、創建特徵集合,對子特徵集合進行分類器訓練; S32、提取音頻特徵,對音頻進行分類; S33、檢索相似音頻。
【文檔編號】G10L15/08GK103854646SQ201410120865
【公開日】2014年6月11日 申請日期:2014年3月27日 優先權日:2014年3月27日
【發明者】陳科, 李世旭 申請人:成都康賽信息技術有限公司