新四季網

一種兒童語音情感識別方法

2023-12-05 04:27:21 1

專利名稱:一種兒童語音情感識別方法
技術領域:
本發明涉及語音識別,特別是涉及到基於兒童語音的語音情感識別方法。
背景技術:
目前市場上的針對兒童的智能電子產品可以播放歌曲、語句也可以通過應答模式進行簡單的對話,但是這種電子產品和學習機所發出的聲音都十分的機械、單調和不自然,使得它們只能作為水冷的工具,人性化功能較差,而不能被孩子們完全接受,現有電子產品的應答模式也不能根據兒童的情緒變化和不同性格的兒童做出相應的情感和風格的調整,只能用機械的聲音播放預先設定好的答案,因此人機互動效果不佳。
而當前針對語音情感識別的研究中雖然有在語音識別過程中進行情感識別
以及在語音合成中加入情感信息的方法,如申請號為01116524.3,名為"具有情感的語音-語音翻譯系統和方法"的中國專利公開了一種具有情感的語音-語音翻譯系統,包括語音識別裝置,用於對語言A的語音表示進行識別,形成語言A的文本表示;機器翻譯裝置,用於將語言A的文本表示翻譯成語言B的文本表示;文本——語音生成裝置,用於根據語言B的文本表示生成語言B的語音表示,所述具有情感的語音——語音翻譯系統的特徵在於還包括情感表述參數檢測裝置,用於從語言A的語音表示中提取情感表述參數;以及情感表述參數映射裝置,用於將情感表述參數檢測裝置提取的情感表述參數從語言A映射到語言B,並將映射結果作用於文本一一語音生成裝置,使其產生可以傳達情感的語音輸出。但是,該方法只是從語言A中提取表示情感的參數並將之機械地映射到目標語言B,而並不對語音所攜帶的情感信息的類型做出分析和判斷。並且其使用的情感識別方法是基於文本以及根據文本進行分詞後對以詞彙為單位的語音數據進行判斷。情感識別的方式很受局限,效果也很有限。
並且,語音識別中的分類技術中,如被廣泛採用的各種基於神經網絡的分類器,其訓練過程需要大量具有已知情感類別的語音樣本,而現有技術中對於
5訓練樣本的獲取方式為令專業的演義人士按照預定情感類別進行"表演",或者在公眾場所隨機採集,再加上採集者對於發音者情感類別的判斷。這種採樣方式一者使樣本的分布廣泛性受到很大影響,因為專業演員的數量有限,且故
意做作出來的"表演"與真實情感流露的語音是有差距的;二者上述語音採樣基本都取自成人,而成年人的感情比較複雜,往往在一句話中包涵了多種情感,這些情感交織在一起,給分類造成困難,也不利於神經網絡的訓練。
再者,現有技術中在進行語音情感分析時, 一般首先進行分幀假設,即採用長度有限的窗函數來截取語音信號形成分析幀,從而將語音信號分割成一幀幀加過窗的短時信號,然後再把每一個短時語音幀看作平穩隨機過程,之後按幀從數據區提取數據進行處理提取特徵參數,從而得出由每一幀參數組成的語音特徵參數的時間序列。根據所述時間序列進行分類器訓練或用於識別。基於分幀假設的方法一方面增加了算法的複雜性,使識別速度緩慢,另一方面由於每個個體的語速和發音特性之間的差別,基於時間窗分幀往往會破壞語音與語義的整體配合關係,從而不利於語音識別,特別是不利於與語義相關度較大的情感識別。
同時,現有技術中也並沒有專門針對兒童特有的聲音特點和感情特徵進行研究,並專門進行兒童語音情感分析和情感語音合成的方法。

發明內容
因此,本發明要解決的問題是克服現有兒童智能電子產品的上述缺陷,提供一種新的基於兒童語音的情感識別和合成技術,使得面向兒童的智能電子產品可以具有高度的人性化、智能化,更容易被兒童所接受。
為解決上述問題,本發明提供了一種兒童語音情感識別方法,其包括訓練語音庫建立、分類器訓練和情感識別,其特徵在於,所述分類器訓練包括以下步驟
(S10)提取兒童語音情感特;f正,該步驟包括 '
前端處理對模擬語音信號進行包括採樣和去噪等基本信號處理在內的預處理;之後對經過預處理的情感語句做HHT變換,獲得情感語音的Hilbert諳;
根據所述情感語音的Hilbert譜進行以下特徵提取音強特徵提取、語調特徵提取、音色特徵提取和節奏特徵提取,獲得情感特徵;(S20)對提取到的情感特徵進行降維,獲得不同情感空間的四元特徵; (S30)四元特徵情感轉換計算,對訓練語音庫樣本集都做上述計算,得到
一系列的自然情感狀態的四元特徵在情感空間i上的投影,從而構成情感特徵投
影集;
(S40)用所述情感特徵投影集中的數據進行SVM/HMM混合系統分類訓練。
本發明的有益效果在於,對兒童語音中的情感進行了理想分類,對活潑、 羞澀的兒童,分別制定了一套兒童情感語音識別與合成系統。構造了基於兒童 語音情感識別的SVM/HMM混合系統,既可以對靜態數據進行分類,又可以對動 態數據進行建模。可以對兒童語音進行實時的自動情感識別。不對語音進行短 時平穩假設,從長時.間上把握情感特性,更符合情感在語音中的分布特性。從 聲音三要素響度、音色、音調著手,加之語速特徵,提取了有效的情感特徵。 統計了自然情感特徵映射到其他不同情感空間中的聚類狀態模型,進行建立情 感一對多映射模型。提高了合成語音的自然度,讓機器發出的聲音具有情感, 提高人機互動效果。
該基於兒童語音的情感識別和合成技術,可以自動通過不同性格的兒童聲 音中所帶的情感進行識別,並可以根據文語轉換系統文本上所標註的情感標籤, 自動的對不帶感情的語音從音強、音色、語調、語速上進行相應的情感修正, 最終合成帶有感情色彩的情感語句。


圖1是本發明語音情感識別方法的流程示意圖2是本發明語音情感識別方法的情感特徵提取示意圖3是本發明語音情感識別方法的HHT變換方法示意圖4是本發明語音情感識別方法用於訓練或識別的切換示意圖。
x 具體實施例方式
本發明的語音情感識別方法包括建立語音資料庫,進行情感分類器訓練和 語音情感識別三個部分,如圖1到圖4所示。
其中,語音庫的建立主要是針對兒童的語音進行,包括語音採集和分類。一般來說,嬰兒從1歲左右開始學會說話,之後隨著年齡的增長人的聲音 會發生變化,並出現一個由童音向成人聲音過渡的階段,即"變聲期",每個個體
"變聲期,,出現的時間不同,大多在12至17歲之間,持續時間為六個月至一 年。聲帶在"變聲期"會有很大變化,因此本發明所述的兒童是指進入變聲期 以前的男孩或女孩。同時,為了保證釆樣的可靠性,太小的孩子會有發音不清 的問題,因此,較佳地是針對3-11歲的兒童進行語音採集,採集的內容可曰常 會話(包括普通話和地方方言)。採集方式可以是讓兒童在特定語境下按情感 類別進行主動表達,但更好的方式是在兒童自然生活的過程中進行採集。
之後,要對採集的語音信息進行分類,建立情感語音資料庫。建立語音庫 之初,對採集後的數據進行分類要由人工來完成,這在現有技術中任何基於學 習的分類和識別方法中都需如此。由於在兒童期,男女聲音差別不大,都是童 音,因此不需要對性別進行分類,但是根據發明人的多年研究,不同性格特徵 的兒童在情感表達中語音起伏的差別卻很大,因此首先將兒童分為活潑性格和 羞澀性格兩類,並以此為基礎進行情感語音資料庫的第一級分類,將其分為活 潑兒童情感語音數據子庫和羞澀兒童情感語音數據子庫。
之後,分別對活潑兒童情感語音數據子庫和羞澀兒童情感語音數據子庫中 的語音數據進行情感分類。例如,可將兒童情感分為驚奇、驕傲、興奮、快 樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜(自然)共11類。要說明的 是,此分類僅作為本發明的一較佳實施例,但並不以此為限。
在從語音資料庫中提取語音信息時,首先進行性格類型判斷,在從活潑兒 童情感語音數據子庫和羞澀兒童情感語音數據子庫中獲取語音數據後,分別給 語音數據添加不同的性格標籤,如圖l所示,分別添加標籤K1、 K2,之後分別 針對具有不同標籤的不同性格的兒童分別進行分類器訓練。而在語音情感識別 的過程中,則可以首先對一條待識別語音進行性格判斷,然後根據判斷出的兒 童性格類型用訓練好的系統進行相應的識別。
情感分類器的訓練是根據語音資料庫中的數據進行',並可在之後的識別過 程中進行不斷修正,所述語音資料庫亦可動態調整。情感分類器的訓練包括以 下步驟
S10:提取兒童語音情感特徵因為語音情感在一句話中是連續變化的,因進行分幀,而是將整句語音的採樣值作為一個時間序列進行分析;但對於語音 較長的語句,可以按照韻律規律劃分成多個語音段。情感可以從聲音的大小(響 度)、基音曲線(語調)、聲門特徵(音色)和語速表現出來,因此從這四方 面提取情感特徵,具體的提取過程包括
(S11)前端處理首先對模擬語音信號進行包括採樣和去噪等基本信號處 理在內的預處理;之後對經過預處理的情感語句做HHT (Hilbert-Huang變換) 變換,在Huang變換部分,把語音分解成一系列能量降序、頻率降序、波長變 長的固有模態(IMF),只選取包含情感信息的前P個固有模態,隨後對這P 個IMF做Hilbert變換,並由此導出作為時域函數的瞬時幅值(能量)和瞬時頻 率,從而得到各個IMF的時間-頻率-幅值分布,即情感語音的Hilbert譜;
(S12 )音強特徵提取對情感語音的IMF計算Teager能量算子(TEO ), 然後取模,提取幅度信息,用來表徵響度特徵;
(S13 )語調特徵提取對Hilbert譜計算Teager能量算子(TEO ),取模 後,根據設定的幅度域值確定出濁音段與清音段,隨後對無聲段和清音段進行 插值,得到基音曲線全局變化趨勢,用來表徵語調特徵;
(514) 聲門(音色)特徵提取從濁音段估計聲門波導數信號,由牛頓-高斯型非線性估計方法獲得7個殘出組成的分段函數的LF模型表示聲門波導數 的粗糙部分,然後從聲門波導數估計值中減去次粗糙結構,得到精細結構分量, 對精細分量做HHT變換,提取沒有被一般的聲門波形狀所表現的特徵;
(515) 節奏特徵提取對情感語音的IMF計算語速,用以表徵語速信息; S20:對提取到的情感特徵進行降維,例如採用KPCA(核主元分析)方法,
對所提取的不同情感的4部分特徵分別進行降維,選取累計量大於滿意數值的 前M階累計量作為不同情感的訓練特徵,這不同情感對應的4部分訓練特徵, 命名為不同情感空間的四元特徵; S30:四元特徵情感轉換計算,
(1) 同一句話中,自然情感狀態的四元特徵為基準(Ie)在各個情感空間 i中的四元特徵的投影值,每四元特徵都有M階;
(2) 對所有的訓練庫樣本集都做上述計算,得到一系列的自然情感狀態的 四元特徵在情感空間i上的投影,作為情感特徵投影集;
S40:用SVM/HMM混合系統對訓練特徵進行訓練。SVM是很好的靜態分類器,HMM則可以對動態數據進行建模,其中SVM的核函數選擇不加限制, 因為他們的效果大體相同,只是識別速度略有不同,隨後用Gauss函數模型化 後驗概率,把SVM的分類距離映射為HMM中Viterbi算法所需要的後驗概率, 例如
!7/) =-"(//"^- (1)
K/"/"l)A+K/V"2)A+…+戶(/7"ll);7u
/是SVM距離,y是分類標籤,值為l到ll(代表ll種情緒驚奇、驕傲、 興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。由式依次可以分 別計算出第1情感的戶(//少=0。每個類的條件概率P(/7少W)都被模型化為一個 Gauss .函數,式中
p(/7"0-^^exp—(, ') , / = 1廣、11 (2)
S50:用不同情感的四元特徵和情感特徵投影集對SVM/HMM混合系統進 行訓練,並依次得到四元特徵和情感特徵投影集對應的聚類狀態模型及各自的 決策樹;
S60:用訓練好的識別系統完成對實時輸入的兒童語音的情感識別。
下面對各個步驟進行詳細說明,參見圖2、圖3。
其中,步驟S11的前端處理中,預處理的方法中可包括利用FIR低通濾波 器進行濾波,以濾除信號中的高次諧波和隨機幹擾成分,被濾除的成分是奇異 模態,從而避免了隨後EMD篩選中因奇異模態影響造成的模態混疊,以便在被 篩選出的模態信號中得到完整的有用信號。預處理的實現方法亦可使用現有技 術語音識別方法中的預處理通用方法,例如,普通PC機的音效卡即可用於實現預 處理。設對每條(句)語音信號,預處理後得到原始語音信號時間序列義(O, HHT變換首先對語音情感信號進行EMD(經驗模態分析,Empirical Mode Decomposition)分解,把非平穩的語音情感信號X(O分解成為六個平穩的IMF(固 有模態函數,Intrinsic Mode Functions )窄帶信號分量。關於HHT變換的詳細內 容可參見文獻[l]: Norden E. Huang, Zheng Shen, Steven R. Long, The empirical mode decomposition & the Hilbert spectrum for nonlinear and non-stationary time series analysis, Proceed of the Royal Society of London Series A: Mathematical
10and Physical Sciences, 454:903-995, 1998。 EMD分解基於如下假設
(1) 語音情感信號至少有兩個極值, 一 個極大值和 一 個極小值;
(2) 語音情感信號特徵時間尺度是由極值間的時間間隔確定的;
(3) 如果語音情感信號中缺乏極值點,但存在缺陷點,可通過微分、分解、 再積分的方法獲得IMF。
根據IMF提取的標準,本發明的一個實施例中,分別根據語音情感信號的 極大值和極小值使用三次樣條插值來實現EMD分解。具體步驟如下
(1) 確定語音情感信號的局部極大值X皿和局部極小值y^。
(2) 分別根據Xmax和Imin做三次樣條插值確定原始語音情感信號的上包 絡和下包絡,這樣在上下包絡之間是原始語音情感信號X(f)。
(3) 根據上下包絡,求出原始語音情感信號X(O的局部均值mn(O,原始語音 情感信號與局部均值的差值記為& =-m (f)。
(4) 以&代替義(,),重複以上步驟(1)到(3),直到/^一與/^之間的方差 小於一設定值即認為/^是一IMF分量,令&=\4, "0 = ^(0-9, ^(0 = 5(0。
(5) 重複以上步驟(1)到(4),直到^或、比預定值小;或者剩餘"/)變成 單調函數時,原始信號的EMD分解結束。
最後得到
邵)=1>'")""(。 (3)
這樣,獲得了 "個IMF模式分量c,0)和剩餘信號(0。分解得到的IMF模式 分量代表了原始情感信號中包含的不同時間尺度的特徵信號,並且都是窄帶信 號,使得瞬時頻率具有了真實的物理意義,因此可以利用EMD分解作為語音情 感識別用新的情感特徵。
語音情感信號分解出來的第一個IMF是振幅最大、,頻率最高、波長最短的 波動,依次下去的各內在模函數,振幅逐漸變小、頻率逐漸變低、波長越來越 長,這種變化趨勢一直延續到頻率已經很低最後一個IMF。而一般來說,最後 一個IMF要比倒數第二個IMF的波動振幅大,這種異常現象是EMD中經常會 出現的情況,但它只可能出現在較低頻的部分,不會影響整體的變化趨勢。
11語音情感信號分解出來的IMF的這種分布狀況,是由IMF的本性決定的, 它總是把最主要的信號先提取出來,也就是說,由EMD方法分解出來的頭幾個 IMF,集中了原序列中最顯著的信息。實際上,由實驗統計數據上分析來看,從 第六個IMF開始,波動的振幅基本上都小於4mm,依EMD方法的本性而言, 只要有多餘1個波的波動存在,EMD就能夠把它提取出來。對於具體的語音情 感信號,這些振幅很小、頻率極低、波長很大的波動可能是事實存在的物理現 象,也可能是由於數據採樣率不夠高造成的噪聲信號。基於以上幾點考慮,本 發明優選只提取前六個IMF用作語音情感分析,有效的避免了這種異常。
應用於語音情感識別中的Hilbert-Huang變換方法分析質量很大程度上取決 於EMD分解的質量。而EMD分解由於釆用三次樣條插值來獲得信號的瞬時平 均,使得這種方法存在特殊的邊緣效應,嚴重的會影響整個信號。因此,優選 地,要在HHT分解過程中,使用 一定手段抑制EMD分解由於採用三次樣條插 值所產生的邊緣效應。
三次樣條曲線具有光滑的一次微分和連續的二次微分特點。由於所分析的 語音情感信號的有限長度、情感信號的兩端點不能確定是極值,那麼在進行三 次樣條插值的時候,必然使得信號的上下包絡在信號的兩端附近嚴重扭曲。在 情感信號的高頻分量部分,由於時間尺度小,極值間的距離小,端部的邊緣效 應僅局限在信號兩端很小的部分。但對於低頻分量,由於其時間尺度大,極值 間的距離大,端部的邊緣效應就傳播到情感信號的內部,特別是原始語音情感 信號比較短的時候,會嚴重影響EMD分解的質量,使得分解出來的IMF分量 沒有實際的物理意義。對於單分量信號端部效應的影響較小、對於多分量複雜 信號,特別是需要作多次前述EMD分解步驟前三步的時候,邊緣效應會放大, 嚴重淹沒信號的端部特徵。
根據三次樣條插值的特點,必須在極大值和極小值數據集兩端增加極大值 和極小值點。但是,由於原始情感語音信號的兩端點可能不是極值點,必須進 行合理的預測。為此,就必須在每次平滑過程中正確的確定添加極值點的位置 和振幅。
確定的方法是根據原始語音情感信號的極大值和極小值數據集的規律,預 測附加的極值點。例如一種預測極值點的方法是根據原始語音情感信號的極 大值和極小值數據集,用其左右四分之一的數據的間距均值和兩端點幅值或全局統計平均幅值,分別定出極大值和極小值數據集的左右兩端需增加的極值點 的位置和幅值,並確保所構成的新的極大值和極小值數據集的最大間距大於等 於原始語音情感信號的長度。

Hilbert變換是一種線性變換,可以用線性系統描述,當輸入信號是平穩隨 機過程時,輸出信號也應該是平穩隨機過程;Hilbert變換強調局部屬性,用它 可以得到瞬時頻率,這就避免了用Fourier變換時為擬合原語音情感信號序列而 產生的許多多餘的、事實上並不存在的高、低頻成分。對IMF進行Hilbert變換 的如下,設J(f)為一IMF分量,貝'〗
&)=丄£, (4) ^ "卜r
式中,積分在f"處為奇點,運算中取其柯西主值,並記為
》o丄屍r^U (5)
;r 上00 f — 7 定義/(f)的解析信號z(,)為
z(0"(0 + i》(04)e, (6)
(7)
,二arctan巡 (8) 朋
式(7)和(8)是極坐標系中的表達形式,他們明確地表達了瞬時振幅和瞬時相 位,很好地反映了數據的瞬時性。在此基礎上定義瞬時頻率為
,, (9) 欲
由上看出,經過Hilbert變換得到的振幅和頻率都是時間的函數,如果把振 幅顯示在頻率-時間平面上,就可以得到Hilbert譜。
關於Hilbert變換的算法實現在現有技術中有許多成熟的方法,在此不再贅
、 、
述。上述敘述只是為了說明其原理,以利於對本發明的思想有更好的理解。
通過Hilbert變換求得模態信號的瞬時頻率,即可求得前六個模態信號的瞬
時時頻分布和能量分布,從而可把其作為特徵向量,用於情感識別中SVM的訓
練和識別。
本發明的情感特徵提取主要包括以下四個特徵
(S12 )音強特徵提取對情感語音的IMF計算Teager能量算子(TEO ), 然後取模,提取幅度信息,用來表徵響度特徵;
其中,Teager能量算子的定義公式為^[s(")]=屍(")—+ _ 1), 其中,^(*)為Teager能量算子,為待計算的採樣信號序列。
(S13 )語調特徵提取對所述IMF的Hilbert譜計算Teager能量算子(TEO ), 取模後,根據設定的幅度域值確定出濁音段與清音段,之後對無聲段和清音段 進行插值,得到基音曲線全局變化趨勢,用來表徵語調特徵;
(514) 聲門(音色)特徵提取從濁音段估計聲門波導數信號,由牛頓-高斯型非線性估計方法獲得分段函數的LF ( Liljencrants-Fant)模型表示聲門波 導數(glottal flow derivative)的粗糙部分,例如,但並不局限乎此,可取7個 殘出組分的分段函數的LF,然後從聲門波導數估計值中減去次粗糙結構,得到 精細結構分量,對精細分量做HHT變換,提取沒有被一般的聲門波形狀所表現 的特徵;
(515) 節奏特徵提取對情感語音的IMF計算語速,用以表徵語速信息。 其中,Teager能量算子的定義,運算以及特性可以參見文獻[2]: J.F.Kaiser,
"On a Simple Algorithm to Calculate the 、Energy' of a Signal", ICASSP-90, pp.381-384, 1990。以及參考文獻[3]: J.F.Kaiser, Some Useful Properties of Teager's Energy Operator", ICASSP-93, Vol.3, pp.149-152, 1993。本領域技術人員根據 上述文獻以及現有技術的其它公開,當可實現上述算法。
設上述提取到的四種特徵分別為音強特徵Tp語調特徵T2,音色特徵T3 和節奏特徵丁4。依次對語音庫中每種情感的每條語句獲取其特徵7f 。其中,i 表示第i個特徵,k表示該語句屬於第k種情感。
由於這樣得到的每種特徵的維度較高,因此在步驟S20中對提取到的情感
、 、
特徵進行降維,可以使用採用主元分析方法,如KPCA (核主元分析)或PCA (主元分析)方法,對所提取的不同情感的部分特徵分別進行降維,選取累計 量大於滿意數值的前M階累計量作為不同情感的訓練特徵,其中所述"滿意數 值"可以根據實際應用情況而選定。降維後的不同情感語句對應的4部分特徵, 共同構成一個特徵向量,記為不同情感空間的四元特徵。S30:四元特徵情感轉換計算,由上述說明可知,每一句語音中,自然情感 狀態的四元特徵對應情感空間i的一個向量。設每四元特徵都有M階;將之變 換為基準(Ie)在各個情感空間i中的四元特徵的投影值。對所有的訓練庫樣本 集都做上述計算,則可得到一系列的自然情感狀態的四元特徵在情感空間i上的 投影,記為歸一化四元特徵,將這些投影的集合記為情感特徵投影集。

首先,針對SVM/HMM混合系統的特點,進行步驟S40,用SVM/HMM混 合系統對訓練特徵進行預處理。其中SVM (支持向量機)的核函數選擇不加限 制,例如可選sigmoid函數,隨後用Gauss函數模型化後驗概率,把SVM的分 類距離映射為HMM中Viterbi算法所需要的後驗概率,例如
f■//) =-^ZZ^-_ (1)
/是四元特徵向量的SVM距離,y是分類標籤,值為1到ll(代表11種情 緒驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、恐懼、生氣、焦急、平靜)。 由式依次可以分別計算出第i情感的= /)。每個類的條件概率; (/7y = /)都 被才莫型化為一個Gauss函數,式中
K/V"'〕-"T^exp—(/-f')2 , z、l,…,H (2)
S50:用不同情感的四元特徵和情感特徵投影集對SVM/HMM混合系統進 行訓練,並依次得到四元特徵和情感特徵投影集對應的聚類狀態模型及各自的 決策樹。關於SVM/HMM混合系統及其訓練方法,在現有技術中有諸多論述, 上述僅為其一種實施方式,本發明的此步驟的核心思想為使用SVM/HMM混合 系統作為分類器,而該SVM/HMM混合系統分類器的任何現有實現方法均可應 用於此,而不會超出本發明的範圍。
<兒童語音的情感識別〉
分類器訓練好之後,即可以投入使用,進行步驟S60:用訓練好的識別系統 完成對實時輸入的兒童語音的情感識別。
參見圖4,對兒童語音進行情感識別的方法為對於每一條待識別的情感語 音,同樣進行預處理HHT變換和特徵提取,從而獲得歸一化四元特徵;之後對 所述歸一化四元特徵進行預處理,使之映射到SVM/HMM混合系統所需的HMM後驗概率,之後根據所述歸一化四元特徵和後驗概率應用訓練好的SVM/HMM 混合系統進行分類。其中,對於待識別語音的數據處理方法與上述步驟S10至 S40相同,不再贅述。
此外,本發明的算法還可以進行逆向應用,即用於兒童情感語音的合成。 此時首先根據上述情感特徵投影集進行聚類,得出每一種情感的聚類狀態模型, 對每一條具體兒童語音的情感合成包括以下步驟
對於一待合成的情感語句,首先在文語系統中檢測情感標籤i,所述情感標 籤i可以是預先指定,亦可以是通過語義分析方法進行判斷獲取;
構造該語句的中性語音,並根據本發明的方法從中性語音中提取歸一化四 元特徵;
通過情感特徵投影集對應的聚類狀態模型,把自然情感的歸一化四元特徵
投影到情感空間i中去;
用映射後的歸一化四元特徵合成情感標籤指定的情感語句。 以上對本發明的描述是說明性的,而非限制性的,本專業技術人員理解,
在權利要求限定的精神與範圍之內可對其進行許多修改、變化或等效,但是它
們都將落入本發明的保護範圍內。
1權利要求
1、一種兒童語音情感識別方法,包括訓練語音庫建立、分類器訓練和情感識別,其特徵在於,所述分類器訓練包括以下步驟(S10)提取兒童語音情感特徵,該步驟包括前端處理對模擬語音信號進行包括採樣和去噪等基本信號處理在內的預處理;之後對經過預處理的情感語句做HHT變換,獲得情感語音的Hilbert譜;根據HHT變換和所述情感語音的Hilbert譜進行以下特徵提取音強特徵提取、語調特徵提取、音色特徵提取和節奏特徵提取,獲得情感特徵;(S20)對提取到的情感特徵進行降維,獲得不同情感空間的四元特徵;(S30)四元特徵情感轉換計算,對訓練語音庫樣本集都做上述計算,得到一系列的自然情感狀態的四元特徵在情感空間i上的投影,從而構成情感特徵投影集;(S40)用所述情感特徵投影集中的數據進行SVM/HMM混合系統分類訓練。
2、 根據權利要求1所述的兒童語音情感識別方法,其特徵在於,所述訓練語音庫建立是針對變聲期之前的兒童進行語音信息採樣,並將兒童語音分為來自活潑性格和羞澀性格兒童兩類,針對不同性格的兒童分別進行分類器訓練和情感識別。
3、 根據權利要求2所述的兒童語音情感識別方法,其特徵在於,所述訓練語音庫的建立是將兒童語音分為驚奇、驕傲、興奮、快樂、心虛、傷心、厭惡、焦急、恐懼、生氣、平靜ll類情感。
4、 根據權利要求1所述的兒童語音情感識別方法,其特徵在於,所述步驟S10中對經過預處理的情感語句做HHT變換的步驟包括對情感語句進行EMD分解,得到一系列能量降序、頻率降序、波長變長的固有模態,並提取其前P個固有模態;i對所述P個固有模態做Hilbert變換,獲得作為時域函數的瞬時幅值和瞬時頻率,從而得到各個固有模態的時間-頻率-幅值分布,其記為情感語音的Hilbert語。
5、 根據權利要求4所述的兒童語音情感識別方法,其特徵在於,所述EMD分解取前6個固有模態,即所述P為6。
6、 根據權利要求4所述的兒童語音情感識別方法,其特徵在於,所述EMD分解採用三次樣條插值來獲得信號的瞬時平均,並在極大值和極小值數據集兩端增加極大值和極小值點,其方法為根據原始語音情感信號的極大值和極小值數據集,用其左右四分之一的數據的間距均值和兩端點幅值或全局統計平均幅值,分別定出極大值和極小值數據集的左右兩端需增加的極值點的位置和幅值,其中,所構成的新的極大值和極小值數據集的最大間距大於等於原始語音情感信號的長度。
7、 根據權利要求1所述的兒童語音情感識別方法,其特徵在於,所述音強特徵提取方法為對情感語音的固有模態計算Teager能量算子,然後取模,提取幅度信息,用來表徵音強特徵;所述語調特徵提取方法為對情感語音的固有模態的Hilbert譜計算Teager能量算子,取模後,根據設定的幅度域值確定出濁音段與清音段,之後對無聲段和清音段進行插值,得到基音曲線全局變化趨勢,用來表徵語調特徵;所述音色特徵提取方法為從所述濁音段估計聲門波導數信號,由牛頓-高斯型非線性估計方法獲得分段函數的LF模型表示聲門波導數的粗糙部分,然後從聲門波導數估計值中減去次粗糙結構,得到精細結構分量,對精細分量做HHT變換,提取沒有被一般的聲門波形狀所表現的特徵,作為音色特徵;所述節奏特徵提取方法為對情感語音的固有模態計算語速,用以表徵節奏特徵。
8、 根據權利要求1所述的的兒童語音情感識別方法,其特徵在於,所述情感識別包括以下步驟對待識別的語音信息重複步驟(S10)到(S30),以獲得該語音信息的四元情感特徵,將所述四元情感特徵輸入所述SVM/HMM混合系統分類器,以獲得情感分類。
9、 根據權利要求1所述的的兒童語音情感識別方法,其特徵在於,所述方法還包括一語音合成步驟,所述語音合成步驟包括、 、根據所述情感特徵投影集進行聚類,得出每一種情感的聚類狀態模型;對於一待合成的情感語句,獲得其情感標籤i,所述情感標籤i可以是預先指定,亦可以是通過語義分析方法進行判斷獲取;構造所述情感語句的中性語音,並進行步驟(S10)到(S30)以獲取其四元特徵;通過情感特徵投影集對應的聚類狀態模型,把自然情感的四元特徵投影到情感空間i中去;用映射後的四元特徵合成情感標籤指定的情感語句。
全文摘要
一種兒童語音情感識別方法,包括訓練語音庫建立、分類器訓練和情感識別,所述分類器訓練包括提取兒童語音情感特徵,該步驟包括對模擬語音信號進行包括採樣和去噪等基本信號處理在內的預處理;之後對經過預處理的情感語句做HHT變換,獲得情感語音的Hilbert譜;根據所述情感語音的Hilbert譜進行音強特徵提取、語調特徵提取、音色特徵提取和節奏特徵提取,獲得情感特徵;對提取到的情感特徵進行降維,獲得不同情感空間的四元特徵;對訓練語音庫樣本集都做上述計算,得到一系列的自然情感狀態的四元特徵在情感空間i上的投影,從而構成情感特徵投影集;用所述情感特徵投影集中的數據進行SVM/HMM混合系統分類訓練。
文檔編號G10L15/06GK101685634SQ20081014884
公開日2010年3月31日 申請日期2008年9月27日 優先權日2008年9月27日
發明者徐錫濤, 李立志, 賈曉光, 郭亮傑, 韓笑蕾 申請人:上海盛淘智能科技有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀