新四季網

基於頻譜平移的情感說話人識別方法

2023-12-05 04:26:36

專利名稱:基於頻譜平移的情感說話人識別方法
技術領域:
本發明涉及信號處理和模式識別,主要是一種基於頻譜平移的情感說 話人識別方法。
背景技術:
說話人識別技術是指利用信號處理和模式識別方法,根據說話人的語 音識別其身份的技術。情感說話人識別是訓練語音和測試語音中包含情感 語音的說話人識別。在情感說話人識別中,由於受到測試語音和訓練語音 情感不一致的影響,系統的識別率將降大幅降低。本專利提出的方法就是 為了減弱訓練和測試語音情感不 一致引起的系統性能的下降。
目前說話人識別方法主要分成兩個步驟,第一個步驟為特徵提取,主
要的特徵提取方法有梅爾倒譜係數(MFCC),線形預測編碼倒譜係數 (LPCC),感覺加權的線性預測係數(PLP)。第二個步驟為說話人識別過 程,包括說話人建模和訓練。主要的建模方法有高斯混合模型法(GMM), 通用背景模型法(GMM-UBM),支持向量機(SVM)。
在情感說話人識別中,訓練語音通常為中性情感語音,而測試語音包 括各種情感的語音,比如高興情感語音,悲傷情感語音。所以,解決情感 問題的關鍵是在訓練時也能得到除中性情感語音之外的情感語音。如果只 是讓用戶提供各種各樣的情感語音,顯然是不符合應用要求的。 一般情況 下,用戶只能提供中性語音,因此提出了採用中性情感語音得到與各種情 感語音等效的語音頻譜。

發明內容
本發明提供了 一種基於頻譜平移的情感說話人識別方法。該方法通過平移語音信號的短時頻譜,將中性語音頻譜轉換成情感語音等效的語音頻 譜,降低情感變化因素對說話人識別性能的影響。
共振峰位置的不同是各類情感語音的一個主要差別,通過改變中性語 音的共振峰位置,可以得到與情感語音等效的語音頻譜,讓系統在訓練的 時候熟悉各種情感語音,從而提高情感說話人識別的性能。本專利提出了 一種基於頻譜平移的情感說話人識別方法。通過平移中性語音的頻譜來改 變共振峰分布,從而得到與情感語音等效的語音頻譜。
本發明首先採用平移中性語音頻譜的方法,得到和中性語音有不同共 振峰分布的頻譜,再從這些頻鐠中提取情感語音特徵,然後採用高斯混合 模型對各類情感特徵建立模型,最後採用最大得分方法求出測試語音得 分,並進行識別。
一種基於頻譜平移的情感說話人識別方法,包括如下步驟
(1)音頻預處理
採集待測音頻信號後,對音頻信號依次進行採樣量化、去零漂、預加
重和加窗,得到加窗後的語音幀; (2 )頻譜平移
加窗後的語音幀經過快速傅立葉變換得到頻譜信號,採用頻譜平移方 法得到多組分別擁有不同共振峰分布的頻譜信號;
由於說話人處於不同情感狀態下的語音頻譜的共振峰分布情況不同, 通過改變中性語音頻譜的共振峰分布就等效於得到該說話人不同情感狀 態下的語音的特徵; (3 )特徵提取
採用美爾濾波器對頻譜信號進行濾波,再採用離散餘弦壓縮得到語音 特徵;
(4)說話人識別
訓練採用頻譜平移方法對每個說話人的語音4是^^多種情感語音,並對 每種情感的語音建立一個高斯混合模型;
測試將按步驟(1) ~步驟(3 )的流程提取的待測音頻信號的語音特徵,計算待測音頻信號在各種情感語音高斯混合模型下的得分,採用最 大得分方法計算其得分,得到識別結果。
步驟(1)的音頻預處理包括
1) 採樣量化
A)用對採集得到的音頻信號^W進行濾波,濾波時奈奎斯特頻率& 為4KHZ,音頻採樣率屍=2^ ,濾波後得到數字音頻信號(即數位化的音
頻信號)的振幅序列s/^力

B)用脈沖編碼調製對數字音頻信號的振幅序列^W進行量化編碼, 得到振幅序列的量化表示s 丫^;
其中/表示該信號是時間連續信號,"身表示離散/,f序列,"取值 時一般可取為連續的自然數。
2) 去零漂
A) 計算振幅序列的量化表示s丫"j的平均值
B) 將振幅序列中的每個振幅值分別減去平均值卩,得到去零漂後平均 值為0的振幅序歹'J s'丫"」;
3 )預力口重
將去零漂後的振幅序列,f^通過數字濾波器進行預加重,預加重時 數字濾波器的傳遞函數為H(zhl-az-1,得到預加重的振幅序列s",(h」。
對語音信號進行預加重,使信號頻譜變得平坦,壓縮信號器的動態範 圍,提高信噪比。這樣處理可以使低頻到高頻的整個頻帶內能用相同的信 噪比來求頻譜。預加重部分可採用6dB/倍頻程來增強語音信號的高頻部 分,經預加重的語音信號其高頻部分可與中頻部分(1 2kHz)的能量大致
相等。;
4)加哈明窗
A)把預加重後的振幅序列s,"^)劃分成若干音頻幀每一音頻幀 屍M的幀長為W、幀移量為r,且滿足二 = 0.032 二 = 0.010
其中,F是音頻採樣率,單位為Hz; —般每一音頻幀屍w的幀長為iV、
幀移量為r在劃分振幅序列前預先計算出來。
B) 計算哈明窗函數
0.54 - 0.46 cos(^~) 0 S " iV — 1
w=L i 其他 ;
式中7V為每一音頻幀/^的幀長;
C) 利用公式《(")《(")- (n)xFj")對每一音頻幀Fw加哈明窗,得 到加哈明窗後的音頻幀。
步驟(2)的頻謙平移包括
1) 音頻信號轉換成頻譜信號
對加哈明窗後的音頻幀Fm W進行快速傅立葉變換,得到頻譜信號厶,
頻譜信號厶的能量譜為&;
2) 平移頻語信號
對頻譜信號厶進行平移,得到平移後頻譜信號y;,;,其能量譜《;
平移公式為
formula see original document page 8
其中ft表示頻譜信號人平移的距離,單位為他。平移後的能量譜《在
頻率為/Hz處的能量和原能量譜五 在頻率/ + /z Hz處相等。
其目的是得到和中性語音的頻譜信號人具有不同共振峰分布的語音 信號,具有不同共振峰分布的語音幀包含該"i兌話人的情感語音信息。 步驟(3)的音頻特徵提取包括 美爾濾波器的實施步驟分為三步 1)計算梅爾域刻度formula see original document page 9
^表示需計算的美爾刻度的個數;
2) 計算梅爾域刻度M,處對應的頻譜刻度
且固
formula see original document page 9
3) 計算每個梅爾域通道A上的對數能量譜五/.
f一
其中A("表示梅爾域通道^的權重,^>,(" = 1。其中k為濾波器的
個數。上述三步完成了對美爾濾波器的構建。
上述頻譜信號經過美爾濾波器後,再採用離散餘弦變換壓縮對對數能 量譜^進行壓縮,得到語音特徵。
步驟(4)的所述說話人識別中,訓練時採集說話人的中性語音作為 測試語音,採用頻譜平移的方法得到各種情感的語音特徵,然後為每個說 話人的每種情感語音建立一個高斯混合模型。訓練高斯混合模型的方法採 用期望最大化方法。
測試時測試語音在提取特徵之後,對應每種情感的高斯混合模型計算 後驗概率,作為其得分。並根據設定的閥值接收或拒絕該測試語音。
本發明方法中提及的梅爾域刻度可參見JOSEPHP. CAMPBELL, JR., "Speaker Recognition: A Tutorial", PROCEEDINGS OF THE IEEE, VOL. 85, NO. 9, pp.1437-1462, SEPTEMBER 1997.
本發明方法中提及的期望最大化方法Douglas A.Reynolds, Richard C. Rose, "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models" , IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING VOL. 3, no.l, pp.72-83, JANUARY 1995.
本發明有益的效果是採用頻譜平移的方法,改變中性情感語音的共振峰分布情況,生成具有不同共振峰分布的與情感語音等效的語音頻譜, 增強系統對各種情感語音的熟悉程度,提高系統識別率。
具體實施例方式
本發明方法實施時 第一步音頻預處理
音頻預處理分為採樣量化,去零漂,預加重和加窗四個部分。
1、 採樣量化
A) 用銳截止濾波器對採集得到的待測音頻信號進行濾波,使其奈奎 斯特頻率FN為4KHZ;
B) 設置音頻採樣率F-2Fw;
C) 對音頻信號^/"按周期進行採樣,得到數字音頻信號的振幅序列
D) 用脈衝編碼調製(PCM)對s(^進行量化編碼,得到振幅序列的量 化表示s丫",
2、 去零漂
A) 計算量化的振幅序列的平均值S;
B) 將每個振幅值減去平均值,得到去零漂後平均值為0的振幅序列 s,,(n)。
3、 預力口重
A) 設置數字濾波器的Z傳遞函數H(z)-l-az-1中的預加重係數a, a可 取比1稍小的值,可取為0.97;
B) s,丫",通過數字濾波器,得到音頻信號的高、中、低頻幅度相當的振 幅序列,丫"」。
4、 力口窗
A)預先計算音頻幀的幀長N (32毫秒)和幀移量T (IO毫秒),分別 滿足formula see original document page 11
這裡F是音頻採樣率,單位為Hz;
B) 以幀長為N、幀移量為T,把s"丫")劃分成一系列的音頻幀」F^,每 一音頻幀包含N個音頻信號樣本;
C) 計算哈明窗函數
formula see original document page 11
D)對每一音頻幀Fm加哈明窗
利用公式《(n):《(")= (")>^ 對每一音頻幀」 加哈明窗,得到 加哈明窗後的音頻幀《(")。 第二步頻譜平移
音頻幀上的頻譜平移包括快速傅立葉變換和頻譜平移'

1、 時域到頻域的變化採用快速傅立葉變換,轉變{《(叫得到頻譜 信號厶,其能量譜為&。快速傅立葉變化時其大小可取為512。
2、 平移頻譜信號
formula see original document page 11
其中A表示頻譜信號人平移的距離,單位為搶。平移後的能量譜《在 頻率為/Hz處的能量和原能量語^在頻率/ + Hz處相等。 第三步、特徵提取
採用美爾濾波器對上述頻譜進行濾波,再採用離散餘弦變化得到特徵。
1、 計算梅爾域刻度
formula see original document page 11
p表示需計算的美爾刻度的個數;
2、 計算對應的頻域刻度formula see original document page 12
3、 計算每個梅爾域通道^上的對數能量譜formula see original document page 12其中fcv^W二i, A為通道個數,A("為每個梅爾域通道的權重,可
以都取為1,表示每個通道的權重相同。也可以根據需要取不同的數值。 一般情況下梅爾域通道的個數為40個或者60個。
4、 採用離散餘弦變換(dct)對梅爾域通道上的能量譜進行壓縮得 到特徵。壓縮後,取dct變化的前13或者16維作為特徵。
第四步、說話人建才莫及識別
採用高斯混合模型對各種情感語音特徵建模,得到各種情感語音模 型,也可以稱為說話人訓練;
模型訓練中包括兩個部分,第一部分是採用似然估計法得到語音模型 (高斯混合模型);第二部分採用中性和情感語音轉化算法。 高斯混合模型的訓練
gmm參數包括權重,均值(a )和方差(《),其定義如下 屍(刈A) = f>,g,
M為混合模型的階數,g,為高斯分量。
訓練是一個迭代的估計過程,其過程可分為兩步,計算訓練數據在第 /階時的概率,這一步稱為求期望;然後以上一步的參數(a ( w,, m,,《))
估計下一步gmm的參數(a' (〃.; , i ;)),這一步被-稱為求最大化。 EE柳formula see original document page 12u — J^]_=旦
A — jr 一 7'
/=1 /=1

其中,z,表示訓練的語音特徵,其總數為"
用戶的每種情感特徵建立一個高斯混合模型,每個高斯混合模型代表
了其情感語音特徵的分布情況。如果,有"e種情感,那麼每個說話人都擁 有恥個高斯混合模型。
計算測試語句在各種情感語音模型下的得分,採用最大得分方法計算 該語句的最後得分,並做出判斷。
根據貝葉斯理論,在輸入語音特徵Z下,符合聲紋模型A,的概率為
7Y、 l"-屍即'"屍(入)
同一個說話人有"e個模型,對於一個語音幀可以得到"e個得分,那麼 把這些得分中的最高得分當成該語音幀的最後得分
屍(入IX)二m;x屍(入|Z)
那麼對於該測試語句的所有語音幀的最後得分為 ,Z)二flog(屍獣》
其中為測試語音幀的總幀數。
在說話人鑑別中,其中在所有模型中得分最高的模型擁有者被認為是 該測試語音對應的用戶。在說話人確認中,需要設定一個岡值,如果得分 高於該閥值就被接受;否則被拒絕。
效果測試實驗中採用的資料庫為中文情感語音資料庫(MASC)。該資料庫包 括68人,其中女性23人。 一共錄製了 5種情感的語音,分別為中性, 生氣,高興,憤怒和悲傷。每個說話人要在每種情感情況下說出5個單詞 和20句i吾句3遍。
實驗中,採用中性的20句話的前5句的三遍, 一共15句話用於訓練, 組成訓練語音集。五種情感的後15句語音(三遍)用於測試,組成測試語音 集合(共15*3*68)。實驗中,模擬的是說話人鑑別的過程。共有兩組實驗:
1. 對比實驗在頻譜平移方法中,採用的平移量為O,也就是得到一 組特徵。由於訓練語音為中性語音,該組特徵就是該說話人中性語音的特 徵。
2. 頻譜平移採用本發明方法,採用的平移為土l, ±2, ±3 ±4, ± 5單位,單位的大小為8000/512=15.625Hz。
兩組實-險的識別率分別為45.17%和54.43%。說明採用本發明移動 頻i普方法得到的識別結果要優於未採用移動頻譜的方法。
權利要求
1、一種基於頻譜平移的情感說話人識別方法,其特徵在於,包括如下步驟(1)音頻預處理採集待測音頻信號後,對音頻信號依次進行採樣量化、去零漂、預加重和加窗,得到加窗後的語音幀;(2)頻譜平移加窗後的語音幀經過快速傅立葉變換得到頻譜信號,採用頻譜平移方法對頻譜信號進行平移得到多組分別擁有不同共振峰分布的頻譜信號,不同的共振峰分布表示信號不同的情感類型;(3)特徵提取採用美爾濾波器對頻譜信號進行濾波,再採用離散餘弦壓縮得到語音特徵;(4)說話人識別採用頻譜平移方法將每個說話人的中性語音頻譜轉換成各種情感語音頻譜,並利用每種情感語音頻譜建立說話人的相應情感下的模型;將按步驟(1)~步驟(3)的流程提取的待測音頻信號的語音特徵,計算待測音頻信號在各種情感語音的說話人模型下的得分,採用最大得分方法計算其得分,得到識別結果。
2、 根據權利要求1所述的基於頻語平移的情感說話人識別方法,其 特徵在於,步驟(1)中所述的採樣量化的步驟為A) 用對採集得到的音頻信號s。^進行濾波,濾波時奈奎斯特頻率Fw 為4KHZ,音頻採樣率F=2FW ,濾波後得到數字音頻信號的振幅序列B) 用脈沖編碼調製對數字音頻信號的振幅序列sf^進行量化編碼, 得到振幅序列的量化表示s 丫w」。
3、 根據權利要求1所述的基於頻譜平移的情感說話人識別方法,其特徵在於,所述的去零漂的步驟為A) 計算振幅序列的量化表示s 丫"J的平均值S;B) 將振幅序列中的每個振幅值分別減去平均值S ,得到去零漂後平均 值為0的振幅序列s'丫w」。
4、 根據權利要求1所述的基於頻譜平移的情感說話人識別方法,其 特徵在於,所述預加重的步驟為將去零漂後的振幅序列s'Y^通過數字濾波器來增強信號的高頻部分, 經預加重的信號其高頻部分可與中頻部分的能量相當,得到預加重後的振幅序列, 。
5、 根據權利要求1所述的基於頻譜平移的情感說話人識別方法,其 特徵在於,所述加哈明窗的步驟為A) 把預加重後的振幅序列,丫^劃分成若干音頻幀FM,每一音頻幀 F^的幀長為7V、幀移量為r,且滿足—=0.032 F二 = 0.010 F其中,F是音頻採樣率,單位為Hz;B) 計算哈明窗函數0.54 - 0.46 cos("^") 0 S " S7V -11 廿" j 其他式中iV為每一音頻幀FM的幀長;C)利用公式《(")《(")- (")xi^(n)對每一音頻幀/^加哈明窗,得 到加哈明窗後的音頻幀《(n)。
6、根據權利要求5所述的基於頻譜平移的情感說話人識別方法,其 特徵在於,步驟(2)中對頻譜信號進行平移的步驟為對進行快速傅立葉變換後得到頻譜信號人進行平移,得到平移後頻譜信號X,其能量譜&; 平移公式為formula see original document page 4其中&為頻譜信號人的能量譜,A表示頻譜信號人平移的距離,單位 為他,平移後的能量譜《在頻率為/Hz處的能量和原能量譜&在頻率 /十認z處相等。
7、根據權利要求1所述的基於頻譜平移的情感說話人識別方法,其 特徵在於,步驟(3)中美爾濾波器的構建步驟為1) 計算梅爾域刻度formula see original document page 4p表示需計算的美爾刻度的個數;2) 計算梅爾域刻度M,.處對應的頻譜刻度formula see original document page 43)計算每個梅爾域通道^上的對數能量譜^:formula see original document page 4其中A("表示梅爾域通道A的權重,t^(/c)^1,其中k為濾波器的個數。
全文摘要
本發明公開了一種基於頻譜平移的情感說話人識別方法,包括如下步驟(1)採集待測音頻信號後,對音頻信號依次進行採樣量化、去零漂、預加重和加窗,得到加窗後的語音幀;(2)加窗後的語音幀經過快速傅立葉變換得到頻譜信號,採用頻譜平移方法得到多組分別擁有不同共振峰分布的頻譜信號;(3)採用美爾濾波器對上述頻譜進行濾波,再採用離散餘弦壓縮得到語音特徵;(4)按步驟(1)~步驟(3)的流程提取的待測音頻信號的語音特徵,採用最大得分方法計算氣氛得分,並給出識別結果。本發明方法改變中性情感語音的共振峰分布情況,合成具有不同共振峰分布的語音頻譜,增強系統對各種情感語音的熟悉程度,提高系統識別率。
文檔編號G10L17/00GK101419800SQ200810162450
公開日2009年4月29日 申請日期2008年11月25日 優先權日2008年11月25日
發明者單振宇, 吳朝暉, 楊瑩春 申請人:浙江大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀