基於頻譜平移的情感說話人識別方法

2023-12-05 04:26:36 2

專利名稱：基於頻譜平移的情感說話人識別方法
技術領域：
本發明涉及信號處理和模式識別，主要是一種基於頻譜平移的情感說話人識別方法。
背景技術：
說話人識別技術是指利用信號處理和模式識別方法，根據說話人的語音識別其身份的技術。情感說話人識別是訓練語音和測試語音中包含情感語音的說話人識別。在情感說話人識別中，由於受到測試語音和訓練語音情感不一致的影響，系統的識別率將降大幅降低。本專利提出的方法就是為了減弱訓練和測試語音情感不一致引起的系統性能的下降。
目前說話人識別方法主要分成兩個步驟，第一個步驟為特徵提取，主
要的特徵提取方法有梅爾倒譜係數(MFCC),線形預測編碼倒譜係數 (LPCC),感覺加權的線性預測係數(PLP)。第二個步驟為說話人識別過程，包括說話人建模和訓練。主要的建模方法有高斯混合模型法(GMM), 通用背景模型法(GMM-UBM),支持向量機(SVM)。
在情感說話人識別中，訓練語音通常為中性情感語音，而測試語音包括各種情感的語音，比如高興情感語音，悲傷情感語音。所以，解決情感問題的關鍵是在訓練時也能得到除中性情感語音之外的情感語音。如果只是讓用戶提供各種各樣的情感語音，顯然是不符合應用要求的。一般情況下，用戶只能提供中性語音，因此提出了採用中性情感語音得到與各種情感語音等效的語音頻譜。

發明內容
本發明提供了一種基於頻譜平移的情感說話人識別方法。該方法通過平移語音信號的短時頻譜，將中性語音頻譜轉換成情感語音等效的語音頻譜，降低情感變化因素對說話人識別性能的影響。
共振峰位置的不同是各類情感語音的一個主要差別，通過改變中性語音的共振峰位置，可以得到與情感語音等效的語音頻譜，讓系統在訓練的時候熟悉各種情感語音，從而提高情感說話人識別的性能。本專利提出了一種基於頻譜平移的情感說話人識別方法。通過平移中性語音的頻譜來改變共振峰分布，從而得到與情感語音等效的語音頻譜。
本發明首先採用平移中性語音頻譜的方法，得到和中性語音有不同共振峰分布的頻譜，再從這些頻鐠中提取情感語音特徵，然後採用高斯混合模型對各類情感特徵建立模型，最後採用最大得分方法求出測試語音得分，並進行識別。
一種基於頻譜平移的情感說話人識別方法，包括如下步驟
(1)音頻預處理
採集待測音頻信號後，對音頻信號依次進行採樣量化、去零漂、預加
重和加窗，得到加窗後的語音幀； (2 )頻譜平移
加窗後的語音幀經過快速傅立葉變換得到頻譜信號，採用頻譜平移方法得到多組分別擁有不同共振峰分布的頻譜信號；
由於說話人處於不同情感狀態下的語音頻譜的共振峰分布情況不同，通過改變中性語音頻譜的共振峰分布就等效於得到該說話人不同情感狀態下的語音的特徵； (3 )特徵提取
採用美爾濾波器對頻譜信號進行濾波，再採用離散餘弦壓縮得到語音特徵；
(4)說話人識別
訓練採用頻譜平移方法對每個說話人的語音4是^^多種情感語音,並對每種情感的語音建立一個高斯混合模型；
測試將按步驟(1) ~步驟(3 )的流程提取的待測音頻信號的語音特徵，計算待測音頻信號在各種情感語音高斯混合模型下的得分，採用最大得分方法計算其得分，得到識別結果。
步驟(1)的音頻預處理包括
1) 採樣量化
A)用對採集得到的音頻信號^W進行濾波，濾波時奈奎斯特頻率& 為4KHZ,音頻採樣率屍=2^ ，濾波後得到數字音頻信號(即數位化的音
頻信號)的振幅序列s/^力
屍
B)用脈沖編碼調製對數字音頻信號的振幅序列^W進行量化編碼，得到振幅序列的量化表示s 丫^;
其中/表示該信號是時間連續信號，"身表示離散/,f序列，"取值時一般可取為連續的自然數。
2) 去零漂
A) 計算振幅序列的量化表示s丫"j的平均值
B) 將振幅序列中的每個振幅值分別減去平均值卩，得到去零漂後平均值為0的振幅序歹'J s'丫"」；
3 )預力口重
將去零漂後的振幅序列,f^通過數字濾波器進行預加重，預加重時數字濾波器的傳遞函數為H(zhl-az-1，得到預加重的振幅序列s"，(h」。
對語音信號進行預加重，使信號頻譜變得平坦，壓縮信號器的動態範圍，提高信噪比。這樣處理可以使低頻到高頻的整個頻帶內能用相同的信噪比來求頻譜。預加重部分可採用6dB/倍頻程來增強語音信號的高頻部分，經預加重的語音信號其高頻部分可與中頻部分(1 2kHz)的能量大致
相等。；
4)加哈明窗
A)把預加重後的振幅序列s，"^)劃分成若干音頻幀每一音頻幀屍M的幀長為W、幀移量為r,且滿足二 = 0.032 二 = 0.010
其中，F是音頻採樣率，單位為Hz; —般每一音頻幀屍w的幀長為iV、
幀移量為r在劃分振幅序列前預先計算出來。
B) 計算哈明窗函數
0.54 - 0.46 cos(^~) 0 S " iV — 1
w=L i 其他；
式中7V為每一音頻幀/^的幀長；
C) 利用公式《(")《(")- (n)xFj")對每一音頻幀Fw加哈明窗，得到加哈明窗後的音頻幀。
步驟(2)的頻謙平移包括
1) 音頻信號轉換成頻譜信號
對加哈明窗後的音頻幀Fm W進行快速傅立葉變換，得到頻譜信號厶，
頻譜信號厶的能量譜為&;
2) 平移頻語信號
對頻譜信號厶進行平移，得到平移後頻譜信號y;,;,其能量譜《；
平移公式為
formula see original document page 8
其中ft表示頻譜信號人平移的距離，單位為他。平移後的能量譜《在
頻率為/Hz處的能量和原能量譜五在頻率/ + /z Hz處相等。
其目的是得到和中性語音的頻譜信號人具有不同共振峰分布的語音信號，具有不同共振峰分布的語音幀包含該"i兌話人的情感語音信息。步驟(3)的音頻特徵提取包括美爾濾波器的實施步驟分為三步 1)計算梅爾域刻度formula see original document page 9
^表示需計算的美爾刻度的個數；
2) 計算梅爾域刻度M,處對應的頻譜刻度
且固
formula see original document page 9
3) 計算每個梅爾域通道A上的對數能量譜五/.
f一
其中A("表示梅爾域通道^的權重，^>,(" = 1。其中k為濾波器的
個數。上述三步完成了對美爾濾波器的構建。
上述頻譜信號經過美爾濾波器後，再採用離散餘弦變換壓縮對對數能量譜^進行壓縮，得到語音特徵。
步驟(4)的所述說話人識別中，訓練時採集說話人的中性語音作為測試語音，採用頻譜平移的方法得到各種情感的語音特徵，然後為每個說話人的每種情感語音建立一個高斯混合模型。訓練高斯混合模型的方法採用期望最大化方法。
測試時測試語音在提取特徵之後，對應每種情感的高斯混合模型計算後驗概率，作為其得分。並根據設定的閥值接收或拒絕該測試語音。
本發明方法中提及的梅爾域刻度可參見JOSEPHP. CAMPBELL, JR., "Speaker Recognition: A Tutorial", PROCEEDINGS OF THE IEEE， VOL. 85， NO. 9, pp.1437-1462, SEPTEMBER 1997.
本發明方法中提及的期望最大化方法Douglas A.Reynolds, Richard C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models" , IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING VOL. 3, no.l, pp.72-83， JANUARY 1995.
本發明有益的效果是採用頻譜平移的方法，改變中性情感語音的共振峰分布情況，生成具有不同共振峰分布的與情感語音等效的語音頻譜，增強系統對各種情感語音的熟悉程度，提高系統識別率。
具體實施例方式
本發明方法實施時第一步音頻預處理
音頻預處理分為採樣量化，去零漂，預加重和加窗四個部分。
1、採樣量化
A) 用銳截止濾波器對採集得到的待測音頻信號進行濾波，使其奈奎斯特頻率FN為4KHZ;
B) 設置音頻採樣率F-2Fw;
C) 對音頻信號^/"按周期進行採樣，得到數字音頻信號的振幅序列
D) 用脈衝編碼調製(PCM)對s(^進行量化編碼，得到振幅序列的量化表示s丫",
2、去零漂
A) 計算量化的振幅序列的平均值S;
B) 將每個振幅值減去平均值，得到去零漂後平均值為0的振幅序列 s，，(n)。
3、預力口重
A) 設置數字濾波器的Z傳遞函數H(z)-l-az-1中的預加重係數a， a可取比1稍小的值，可取為0.97;
B) s，丫",通過數字濾波器，得到音頻信號的高、中、低頻幅度相當的振幅序列,丫"」。
4、力口窗
A)預先計算音頻幀的幀長N (32毫秒)和幀移量T (IO毫秒)，分別滿足formula see original document page 11
這裡F是音頻採樣率，單位為Hz;
B) 以幀長為N、幀移量為T,把s"丫")劃分成一系列的音頻幀」F^，每一音頻幀包含N個音頻信號樣本；
C) 計算哈明窗函數
formula see original document page 11
D)對每一音頻幀Fm加哈明窗
利用公式《(n):《(")= (")>^ 對每一音頻幀」加哈明窗，得到加哈明窗後的音頻幀《(")。第二步頻譜平移
音頻幀上的頻譜平移包括快速傅立葉變換和頻譜平移'
曰
1、時域到頻域的變化採用快速傅立葉變換，轉變{《(叫得到頻譜信號厶，其能量譜為&。快速傅立葉變化時其大小可取為512。
2、平移頻譜信號
formula see original document page 11
其中A表示頻譜信號人平移的距離，單位為搶。平移後的能量譜《在頻率為/Hz處的能量和原能量語^在頻率/ + Hz處相等。第三步、特徵提取
採用美爾濾波器對上述頻譜進行濾波，再採用離散餘弦變化得到特徵。
1、計算梅爾域刻度
formula see original document page 11
p表示需計算的美爾刻度的個數；
2、計算對應的頻域刻度formula see original document page 12
3、計算每個梅爾域通道^上的對數能量譜formula see original document page 12其中fcv^W二i， A為通道個數，A("為每個梅爾域通道的權重，可
以都取為1，表示每個通道的權重相同。也可以根據需要取不同的數值。一般情況下梅爾域通道的個數為40個或者60個。
4、採用離散餘弦變換(dct)對梅爾域通道上的能量譜進行壓縮得到特徵。壓縮後，取dct變化的前13或者16維作為特徵。
第四步、說話人建才莫及識別
採用高斯混合模型對各種情感語音特徵建模，得到各種情感語音模型，也可以稱為說話人訓練；
模型訓練中包括兩個部分，第一部分是採用似然估計法得到語音模型 (高斯混合模型)；第二部分採用中性和情感語音轉化算法。高斯混合模型的訓練
gmm參數包括權重,均值(a )和方差(《)，其定義如下屍(刈A) = f>,g,
M為混合模型的階數，g,為高斯分量。
訓練是一個迭代的估計過程，其過程可分為兩步，計算訓練數據在第 /階時的概率，這一步稱為求期望；然後以上一步的參數(a ( w,, m,,《))
估計下一步gmm的參數(a' (〃.; ， i ;)),這一步被-稱為求最大化。 EE柳formula see original document page 12u — J^]_=旦
A — jr 一 7'
/=1 /=1
尺
其中，z,表示訓練的語音特徵，其總數為"
用戶的每種情感特徵建立一個高斯混合模型，每個高斯混合模型代表
了其情感語音特徵的分布情況。如果，有"e種情感，那麼每個說話人都擁有恥個高斯混合模型。
計算測試語句在各種情感語音模型下的得分，採用最大得分方法計算該語句的最後得分，並做出判斷。
根據貝葉斯理論，在輸入語音特徵Z下，符合聲紋模型A,的概率為
7Y、 l"-屍即'"屍(入)
同一個說話人有"e個模型，對於一個語音幀可以得到"e個得分，那麼把這些得分中的最高得分當成該語音幀的最後得分
屍(入IX)二m;x屍(入|Z)
那麼對於該測試語句的所有語音幀的最後得分為，Z)二flog(屍獣》
其中為測試語音幀的總幀數。
在說話人鑑別中，其中在所有模型中得分最高的模型擁有者被認為是該測試語音對應的用戶。在說話人確認中，需要設定一個岡值，如果得分高於該閥值就被接受；否則被拒絕。
效果測試實驗中採用的資料庫為中文情感語音資料庫(MASC)。該資料庫包括68人，其中女性23人。一共錄製了 5種情感的語音，分別為中性，生氣，高興，憤怒和悲傷。每個說話人要在每種情感情況下說出5個單詞和20句i吾句3遍。
實驗中，採用中性的20句話的前5句的三遍，一共15句話用於訓練，組成訓練語音集。五種情感的後15句語音(三遍)用於測試，組成測試語音集合(共15*3*68)。實驗中，模擬的是說話人鑑別的過程。共有兩組實驗:
1. 對比實驗在頻譜平移方法中，採用的平移量為O,也就是得到一組特徵。由於訓練語音為中性語音，該組特徵就是該說話人中性語音的特徵。
2. 頻譜平移採用本發明方法，採用的平移為土l, ±2, ±3 ±4, ± 5單位，單位的大小為8000/512=15.625Hz。
兩組實-險的識別率分別為45.17%和54.43%。說明採用本發明移動頻i普方法得到的識別結果要優於未採用移動頻譜的方法。
權利要求
1、一種基於頻譜平移的情感說話人識別方法，其特徵在於，包括如下步驟(1)音頻預處理採集待測音頻信號後，對音頻信號依次進行採樣量化、去零漂、預加重和加窗，得到加窗後的語音幀；(2)頻譜平移加窗後的語音幀經過快速傅立葉變換得到頻譜信號，採用頻譜平移方法對頻譜信號進行平移得到多組分別擁有不同共振峰分布的頻譜信號，不同的共振峰分布表示信號不同的情感類型；(3)特徵提取採用美爾濾波器對頻譜信號進行濾波，再採用離散餘弦壓縮得到語音特徵；(4)說話人識別採用頻譜平移方法將每個說話人的中性語音頻譜轉換成各種情感語音頻譜，並利用每種情感語音頻譜建立說話人的相應情感下的模型；將按步驟(1)～步驟(3)的流程提取的待測音頻信號的語音特徵，計算待測音頻信號在各種情感語音的說話人模型下的得分，採用最大得分方法計算其得分，得到識別結果。
2、根據權利要求1所述的基於頻語平移的情感說話人識別方法，其特徵在於，步驟(1)中所述的採樣量化的步驟為A) 用對採集得到的音頻信號s。^進行濾波，濾波時奈奎斯特頻率Fw 為4KHZ，音頻採樣率F=2FW ，濾波後得到數字音頻信號的振幅序列B) 用脈沖編碼調製對數字音頻信號的振幅序列sf^進行量化編碼，得到振幅序列的量化表示s 丫w」。
3、根據權利要求1所述的基於頻譜平移的情感說話人識別方法，其特徵在於，所述的去零漂的步驟為A) 計算振幅序列的量化表示s 丫"J的平均值S;B) 將振幅序列中的每個振幅值分別減去平均值S ,得到去零漂後平均值為0的振幅序列s'丫w」。
4、根據權利要求1所述的基於頻譜平移的情感說話人識別方法，其特徵在於，所述預加重的步驟為將去零漂後的振幅序列s'Y^通過數字濾波器來增強信號的高頻部分，經預加重的信號其高頻部分可與中頻部分的能量相當，得到預加重後的振幅序列, 。
5、根據權利要求1所述的基於頻譜平移的情感說話人識別方法，其特徵在於，所述加哈明窗的步驟為A) 把預加重後的振幅序列,丫^劃分成若干音頻幀FM，每一音頻幀 F^的幀長為7V、幀移量為r,且滿足—=0.032 F二 = 0.010 F其中，F是音頻採樣率，單位為Hz;B) 計算哈明窗函數0.54 - 0.46 cos("^") 0 S " S7V -11 廿" j 其他式中iV為每一音頻幀FM的幀長；C)利用公式《(")《(")- (")xi^(n)對每一音頻幀/^加哈明窗，得到加哈明窗後的音頻幀《(n)。
6、根據權利要求5所述的基於頻譜平移的情感說話人識別方法，其特徵在於，步驟(2)中對頻譜信號進行平移的步驟為對進行快速傅立葉變換後得到頻譜信號人進行平移，得到平移後頻譜信號X,其能量譜&; 平移公式為formula see original document page 4其中&為頻譜信號人的能量譜，A表示頻譜信號人平移的距離，單位為他，平移後的能量譜《在頻率為/Hz處的能量和原能量譜&在頻率 /十認z處相等。
7、根據權利要求1所述的基於頻譜平移的情感說話人識別方法，其特徵在於，步驟(3)中美爾濾波器的構建步驟為1) 計算梅爾域刻度formula see original document page 4p表示需計算的美爾刻度的個數；2) 計算梅爾域刻度M,.處對應的頻譜刻度formula see original document page 43)計算每個梅爾域通道^上的對數能量譜^:formula see original document page 4其中A("表示梅爾域通道A的權重，t^(/c)^1，其中k為濾波器的個數。
全文摘要
本發明公開了一種基於頻譜平移的情感說話人識別方法，包括如下步驟(1)採集待測音頻信號後，對音頻信號依次進行採樣量化、去零漂、預加重和加窗，得到加窗後的語音幀；(2)加窗後的語音幀經過快速傅立葉變換得到頻譜信號，採用頻譜平移方法得到多組分別擁有不同共振峰分布的頻譜信號；(3)採用美爾濾波器對上述頻譜進行濾波，再採用離散餘弦壓縮得到語音特徵；(4)按步驟(1)～步驟(3)的流程提取的待測音頻信號的語音特徵，採用最大得分方法計算氣氛得分，並給出識別結果。本發明方法改變中性情感語音的共振峰分布情況，合成具有不同共振峰分布的語音頻譜，增強系統對各種情感語音的熟悉程度，提高系統識別率。
文檔編號G10L17/00GK101419800SQ200810162450
公開日2009年4月29日申請日期2008年11月25日優先權日2008年11月25日
發明者單振宇, 吳朝暉, 楊瑩春申請人:浙江大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於頻譜平移的情感說話人識別方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法