語音情感識別設備和進行語音情感識別的方法

2023-12-05 04:28:06 4

專利名稱：語音情感識別設備和進行語音情感識別的方法
技術領域：
本發明涉及語音識別技術。更具體地說，本發明涉及語音情感識別設備和方法。
背景技術：
近年來，情感在人類的感知、決策等過程扮演著重要角色。長期以來，情感智能研究只存在於心理學和認知科學領域。近年來隨著人工智慧的發展，情感智能跟計算機技術結合產生了情感計算這一研究課題。這將大大地促進計算機技術的發展。情感自動識別是通向情感計算的第一步。語音作為人類最重要的交流媒介，攜帶著豐富的情感信息。如何從語音中自動識別說話者的情感狀態近年來受到各領域研究者的廣泛關注。語音情感識別首先要解決的問題是情感狀態的劃分。已知有兩種情感狀態劃分方法，即呈連續分布的情感狀態和呈離散分布的情感狀態。將人類情感劃分為多個離散狀態的方法由於其簡化了情感模型，計算也較為簡單，目前為止大多數研究採用的是這種方法。關於情感的劃分目前大多數研究者比較認可的基本情感為害怕，憤怒，悲傷，高興，驚訝和厭惡。這種劃分方法也在MPEG4標準中得到了應用。在語音情感識別中，評價一段語音的情感首先要選取能夠表現語音情感的特徵。其次是根據所提取的特徵為每一類情感進行建模。已有技術中使用較多的特徵主要是語音的韻律信息和頻譜信息。韻律信息主要包括音高，語速和能量以及停頓；頻譜信息目前用的最廣泛的是Mel頻率倒譜係數(MFCC)。線性預測係數(LPC)、共振峰及其相關特徵也有部分應用。在 Schuller B, Rigoll G, Lang M.的"Hidden Markov model-basedspeech emotion recognition[C]Proceedings of the 2003 IEEEInternational Conference on Acoustics, Speech, & Signal Processing, HongKong, 2003 :401_404 中，公開了一禾中基於隱馬爾科夫模型(HMM)的情感識別方法，其中首先對輸入語音進行分幀和特徵提取。 Schuller B等人認為韻律特徵和頻譜信息均能反映語音的情感，但頻譜信息受音素影響較大，更容易被語句內容所影響，不利於建立語種無關的情感識別系統，因此採用了韻律特徵。在全局韻律特徵和時序短時韻律特徵選取方面，由於全局韻律特徵容易受到語義的影響，比如疑問句和陳述句相比，前者的基頻偏差(pitch derivation)要遠大於後者。考慮到上述因素，最終採用了時序的韻律特徵。在確定特徵的基礎上，採用HMM方法為每種情感建立模型，然後對輸入語音進行識別。在發明人為趙力等、名稱為「一種基於支持向量機的語音情感識別方法」的中國專利申請CN200610097301. 6中，以基音頻率軌跡、振幅、共振峰頻率軌跡為特徵，並採用了性別規整對說話人性別的差異進行處理，最後為每一種情感訓練一個支持向量機(SVM)模型，通過SVM模型對輸入語音計算其情感。^ ^ 0J A ^J Valery A. Petrushin、名禾爾力"System, method andarticle of manufacture for an emotion detection system」的美國專利US09/387，037 中，首先對語音的基頻，能量，語速，共振峰及其帶寬等特徵進行性能測試，通過一種特徵選擇算法篩選出對情感識別影響較大的特徵集，共選出了 12種與基頻，語速，能量，共振峰，共振峰帶寬相關的特徵。然後對輸入語音提取以上特徵，與資料庫中預存的每種情感的特徵相比較，距離最近的情感模板可認為是輸入語音的情感狀態。然而，除了根據訓練出的模型進行情感識別之外，還需要利用其它信息來提高識別準確度。

發明內容
本發明的至少一個目的在於提供一種語音情感識別設備和方法，其能夠至少克服上述現有技術的部分缺點和不足，以提高語音情感識別的準確度。本發明的一個實施例是一種語音情感識別設備，包括分析裝置，其將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態；概率計算裝置，其根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下所述可能情感狀態的最終概率；和情感判斷裝置，其從所述可能情感狀態中選擇最終概率最大的可能情感狀態作為所述輸入語音的情感狀態。在語音情感識別設備中，條件概率知識可以包括說話人在連續說話過程中相鄰兩句和/或三句話的情感狀態之間轉換的條件概率知識。在語音情感識別設備中，語音情感識別設備還可以包括情感緩存裝置，用於以先入先出方式存儲預定數目的來自情感判斷裝置的情感判斷結果。在語音情感識別設備中，分析裝置可以進一步被配置為輸出所述可能情感狀態的出現概率，並且概率計算裝置可以被進一步配置為結合出現概率來計算最終概率。進一步地，最終概率基於所述出現概率和條件概率的加權和。在語音情感識別設備中，在說話人先前情感狀態不存在的情況下可以忽略相應條件概率。在語音情感識別設備中，情感模型可以基於從包括SVM、HMM、高斯混合模型 (GMM)、神經網絡、距離分類器以及其組合的組中選擇的方法。本發明的另一個實施例是一種進行語音情感識別的方法，包括將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態；根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下所述可能情感狀態的最終概率；和從所述可能情感狀態中選擇最終概率最大的可能情感狀態作為所述輸入語音的情感狀態。在該方法中，條件概率知識可以包括說話人在連續說話過程中相鄰兩句和/或三句話的情感狀態之間轉換的條件概率知識。該方法還可以包括以先入先出方式存儲預定數目的情感判斷結果。在該方法中，多個可能情感狀態的確定可以包括輸出可能情感狀態的出現概率，並且最終概率的計算可以包括結合出現概率來計算最終概率。進一步地，最終概率可以基於出現概率和條件概率的加權和。在該方法中，在說話人先前情感狀態不存在的情況下可以忽略相應條件概率。在該方法中，情感模型可以基於從包括SVM、HMM, GMM、神經網絡、距離分類器以及
4其組合的組中選擇的方法。根據本發明的實施例，能夠基於同一說話人前後情感變化的統計知識，來提高語音情感識別的準確度。

參照下面結合附圖對本發明實施例的說明，會更加容易地理解本發明的以上和其它目的、特點和優點。在附圖中，相同的或對應的技術特徵或部件將採用相同或對應的附圖標記來表示。圖1是示出根據本發明一個實施例的語音情感識別設備的結構的框圖。圖2是示出根據本發明實施例的進行語音情感識別的方法的流程圖。圖3是示出根據本發明實施例的分析裝置的結構的框圖。圖4是示出根據本發明實施例的分析步驟的流程圖。圖5的框圖示出了根據本發明一個實施例的、用於生成情感狀態間轉換的條件概率知識的設備的結構。圖6是示出實現本發明實施例的計算機的示例性結構的框圖。
具體實施例方式下面參照附圖來說明本發明的實施例。應當注意，為了清楚的目的，附圖和說明中省略了與本發明無關的、本領域普通技術人員已知的部件和處理的表示和描述。發明人通過觀察認識到，在一段對話過程中，同一說話人的情感(即，情感狀態) 在一定時間內基本上是穩定的，情感大起大落的情況很少發生。比如上一句話的情感如果是高興，那麼本句話的情感是憤怒的概率就低於是高興或中性情感的概率。同樣，一個人在所說的連續三句話中，情感變化較大的組合，比如憤怒_高興-憤怒的可能性也很小，因為大部分人的情感轉化都需要一個漸變的過程。因此，不同情感之間互相轉換的可能性也有了差別。發明人相應認識到，可以通過大量的對話語料來統計不同情感之間互相轉換的概率。這種情感轉換概率信息對於判斷當前語句的情感狀態很有幫助。下面將結合附圖詳細說明本發明的具體實施方式
。圖1是示出根據本發明一個實施例的語音情感識別設備100的結構的框圖。如圖1所示，語音情感識別設備100包括分析裝置101、概率計算裝置102和情感判斷裝置103。分析裝置101將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態。輸入語音可以是說話人所說的一段語音中的一句語音。在對話環境中，可以通過語音特徵來篩選出同一說話人的語音作為輸入。例如，用戶將一段客戶與接線員的一段對話語音的其中一句客戶語音作為輸入。可通過已知技術來獲得輸入語音的情感特徵、訓練情感模型和進行情感特徵與情感模型的匹配。下面將根據圖3就特徵提取、情感模型生成和情感特徵與情感模型的匹配進行舉例說明。然而應當明白，可採用的方法並不限於所示的例子。圖3是示出根據本發明實施例的分析裝置101的結構的框圖。
如圖3所示，分析裝置101包括預處理裝置301、特徵提取裝置302和分類裝置 304。預處理裝置301對輸入語音進行預處理，其中首先對輸入的語音段進行端點檢測，以確定有效音段的開始和結束位置，從而把只包含背景噪聲以及奇異噪聲的部分去除。目前實現端點檢測這一技術有很多方法，並且在本領域內都是眾所周知的技術，比如利用過零率檢測，能量檢測等進行端點分析。特徵提取裝置302對經過預處理的輸入語音進行特徵提取。語音情感特徵的提取目前主要採用韻律和頻譜信息，而兩種特徵的提取一般來說都要在更小的時間單位上進行。因而對語音段進行加窗分幀處理。為了使幀與幀之間平滑過渡，保持其連續性，一般採用交疊分段的方法。用可移動的有限長度窗口進行加權，就是用一定的窗函數w(n)來乘語音信號s (η)，從而形成加窗語音信號Sw (n) =s(n)*w(n)。在語音信號數字處理中一般採用漢明窗(Hamming window)作為窗函數，這方面很多文獻都有詳細論述。在對語音進行加窗分幀處理後，原語音被分割成在時域上連續的有重疊的語音幀序列。隨後在每一幀上進行特徵提取。語音中能夠反應情感信息的重要特徵有很多，其中基頻、語速、能量、頻譜信息在相關領域中得到了普遍採用，人們對它們在不同情感下的作用基本上有了相同的認識。在一個例子中，分類器可基於使用SVM。SVM分類器對特徵維數有著固定的要求，因此在特徵提取方面採用全局的韻律信息，也稱為超音段信息。在該例子中，總共提取18種特徵(1)基頻(pitch)方面基頻平均值、標準差、變化範圍、極值、取得極值的時間點、基頻差分的極值、中值、最後一音節的基頻衰減速度；(2)語速方面元音時長的平均值及標準差；(3)能量方面能量的標準差，能量差分的平均值、標準差、最大值及取得最大值的時間點。基頻的提取是韻律特徵的基礎。在該例子中，採用了 P. Boersm的「Accurate short-term analysis of the fundamental frequency and theharmonics-to-noise ratio of a sampled sound，，，Proceedings of thelnstitute of Phonetics Sciences, 17,pp. 97-110，1993中描述的基頻提取算法為每一語音幀估算基頻。由於採用此方法提取基頻後仍有奇異基頻點存在，即小數量的連續幀的基頻值遠高於或遠低於相鄰幀，因此對 PaulBoersma的算法做了平滑後處理。一般來說，正常發音時一個音節的基頻持續時間應大於6幀(幀長10-20ms)，因此，持續時間低於6幀的連續非零基頻點可認為是噪聲，直接做賦0處理。這樣可以去除掉基頻點中的奇異點，使基頻曲線更加光滑。在提取出每一幀的基頻之後，基頻均值、標準差、變化範圍、極值、取得極值的時間點能夠容易計算。基頻差分為當前幀與上一幀的基頻差值。已知聲學參數隨時間的變化曲線也承載了一定的情感信息，例如，在Paeschke A，Sendlmeier W F.的「Prosodic characteristics of emotional speech !measurements of fundamental frequency movements[A]Proc ofISCA Workshop on speech and emotion[C]. Northern Ireland Textf low, 2000. 75-80中提到，憤怒與高興相比，基頻曲線在句末的下傾更為劇烈。因此，把最後一音節的基頻衰減速度也納入了特徵集當中。其計算方式為最後一音節的最高基頻點與該音節最末非零基頻點的差值除以兩個基頻點所對應的時間點差值。
在能量的提取方面，一般來說，採用信號採樣值平方表徵的短時能量對高電平信號非常敏感。因此，相關領域中多數採用短時平均幅度函數來表徵一幀信號的能量大小 Mn=∑|xn(m)|其中，Mn表示第η幀信號的能量，Xn(m)表示第η幀語音信號，N表示幀長。在上述例子中，在所有特徵提取完畢之後，每一輸入語音段可被表示為一個18維的特徵向量。圖3中還示出了情感模型庫304，其包含多個情感模型。可以根據收集的語料來訓練出各個情感模型。例如，語料可以由大量的客戶與接線員之間的實際對話組成。可以對語料進行切分和情感標註，將對話過程中情感狀態為高興、憤怒、著急、驚奇、中性的語句切分並加以標記，並去除情感狀態或語句受損的句子。最終形成一個具備相當數量的富有各種情感並且表現良好的情感語音訓練庫。繼續前面的SVM分類器的例子，可根據已經標註好的情感語音訓練庫，首先將屬於同一類情感的語句歸到一起，再經過與上述預處理和特徵提取相同的處理，提取出能夠代表該類情感的特徵向量作為訓練數據，為每一類情感訓練一個模型。具體的SVM訓練過程由於是已知的，這裡就不再具體說明。這裡採用了 5種情感類別的劃分方法，分別是高興，憤怒，著急，驚奇，中性。當然情感的劃分還有更多的方法，比如有人劃分為正面，負面，中性三種情感或更加詳細的劃分。本模塊為每一類情感訓練一個SVM模型(即，情感模型)，該模型能夠對輸入的語音特徵向量是否屬於本情感做出一個概率估計。分類器(即，情感模型)所基於的方法不限於SVM。實際上，情感模型可基於從包括5￥11、_、6匪、神經網絡、距離分類器以及其組合的組中選擇的方法。經過特徵提取之後，輸入語音段可被表示為一個18維的特徵向量X。分類裝置
303將該特徵向量與訓練出的5種SVM情感模型^wi(I)，i = 1，2，3，4，5進行匹配計算。每
一個SVM情感模型都會計算出該特徵向量屬於本情感模型的概率值/^i 二 0 = (I)。由
於SVM模型的使用是本領域非常普遍，其計算方法在很多文獻都有詳細描述(例如可參考 Chih-chungChang禾口 Chih-Jen Lin 的"LIBSVM :a Library for Support VectorMachines，，， 2001 (http://www. csie.ntu. edu. tw/ cjlin/libsvm/)，這裡不再詳細描述。對於一個輸入語音段，其與每個情感模型的匹配可得到一個關於該輸入語音段屬於相應情感狀態的概率(出現概率)。可以將所有得到非零概率的相應情感狀態作為可能情感狀態。或者，也可以設定一個大於零的閾值，並且將所有概率超過(或等於)閾值的相應情感狀態作為可能情感狀態。回到圖1，概率計算裝置102根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下可能情感狀態的最終概率。在一段對話過程中，同一個人的情感在短時間內一般來說是穩定的。比如上一句話的情感如果是高興，那麼本句話的情感是憤怒的概率就低於是高興或中性情感的概率。同樣，一個人在所說的連續三句話中，情感變化較大的組合，比如憤怒_高興-憤怒的可能性也很小，因為大部分人的情感轉化都需要一個漸變的過程。因此，不同情感之間互相轉換的可能性也有了差別。可以通過大量的對話來統計不同情感之間互相轉換的概率，以得到說話人說話過程中情感狀態之間的轉換的條件概率知識。圖5的框圖示出了根據本發明一個實施例的、用於生成情感狀態間轉換的條件概率知識的設備500的結構。如圖5所示，設備500包括語音情感標註裝置501和情感轉換概率統計裝置502。情感語音資料庫503包含說話人所說的語料。情感語音標註模塊501對情感語音資料庫中所有語音段逐句進行人工切分，並對切分出的語句進行情感標註。所進行的標註還可以包括有關說話人的標註，以便確定不同語句是否屬於同一說話人，以及有關段落的標註，以區分不同語句是否屬於同一說話過程。情感轉換概率統計裝置502對經過語音情感標註裝置501標註的語料(即，語音情感資料庫503)進行統計，以獲得條件概率知識504。一般而言，可以將條件概率知識視為在存在前面N-I個語句的情感狀態的情況下，相繼的第N個語句的情感狀態的概率。具體計算方法如下。假設有M種情感狀態i e Ie1, e2，. . . ei，. . . eM}，則定義(1)前一語句情感狀態為i，當前語句情感狀態為j的概率(二元(Bi-gram)訓練模型)為Pbi iet = j I 二 0 =
Ciet^=I)，其中C(et_i = i)表示情感語音訓練庫中情感狀態為i的語句出現的次數，C(et_1 =i，et = j)表示情感語音訓練庫中同一段說話過程中同一說話人連續兩句話的情感狀態分別為i和j的情況的出現次數。(2)前兩句話的情感狀態分別為i，j，當前語句情感狀態為k的概率(三元 (Tri-gram)訓練模型)為^tri C^ - I et-2 ~z』 eM -J)--—(--Γ~
C(et_2 =i,etA=j),其中C(et_2 = i，et_i = j)表示情感語音訓練庫中同一段說話過程中同一說話人連續兩句話的情感狀態分別為i和j的情況的出現次數，C(et_2 = i，et_i = j,et = k)表示情感語音訓練庫中同一段說話過程中同一說話人連續三句話的情感狀態分別為i，j和k的情況的出現次數。類似地，可以得到前兩句話的情感狀態分別為i2,..., V1，當前語句情感狀態為iN的概率(N元(N-gram)訓練模型)為
ρ (a - Ii, _,· p- j f, _ / \ _ ^ieI-N+! ~ ^V eI-N+2 = Z_2,···, gf-l = h-Vet = 『)
jrNKtiI —— 1N I et-N+l ~ lVKt-N+2 ~ ι2^···'κΙ-1 — ιΝ-\)— 廣廣_ ·— ·_ . χ
t^ \et-N+l = 1I 『 et-N+2 =Z2，...,eM 二 1N-I)其中C(et_N+1 = I1, et_N+2 = i2，· · ·， =i』表示情感語音訓練庫中同一段說話過程中同一說話人連續N-I句話的情感狀態分別為i2,..., V1的情況的出現次數， C(et_N+1 = I1, et_N+2 = i2，. . .，et_! = I^1, et = iN)表示情感語音訓練庫中同一段說話過程中同一說話人連續N句話的情感狀態分別為i2,..., V1和iN的情況的出現次數。值得注意的是，分析裝置101計算出Wpi可看作一元(Uni-gram)訓練模型，即
8PmMt=I) = Pi^svmXx) = 1，2，3，4，5。情感轉換概率統計裝置502可以根據上述方法來統計出條件概率知識504。條件概率知識504可以只包含基於一種訓練模型的條件概率，也可以包含基於不同種訓練模型的條件概率。在一段說話過程中，當前語句情感狀態受前面兩句話的情感影響最大，而受更前面的語句的情感狀態影響較小。因此，條件概率知識504優選包含基於三元訓練模型的條件概率、基於二元訓練模型的條件概率或其組合。也就是說，條件概率知識優選包括說話人在連續說話過程中相鄰兩句和/或三句話的情感狀態之間轉換的條件概率知識。回到圖1，對於當前語句，概率計算裝置102得到之前同一說話過程、同一說話人的若干語句(數目取決於所採用的訓練模型)的已確定的情感狀態，並且結合分析裝置101 確定的每個可能情感狀態，從條件概率知識104中尋找已確定的情感狀態和可能情感狀態間的條件概率。概率計算裝置102可以直接將所得到的條件概率作為相應可能情感狀態的最終概率，也可以在分析裝置101確定的可能情感狀態的出現概率之間的差在預定範圍內的情況下，將所得到的條件概率作為相應可能情感狀態的最終概率。優選地，分析裝置101可以向概率計算裝置102提供可能情感狀態的出現概率，並且情感判斷裝置被進一步配置為結合所述出現概率來計算所述最終概率。例如，概率計算裝置102可以簡單地將出現概率和條件概率相加以得到最終概率。優選地，最終概率可以基於出現概率和條件概率的加權和。例如，在採用二元和三元訓練模型的情況下，當前語句的每個可能情感狀態的最終概率可計算為P(et = i) = α -Pimi (et = ) + β · Pbi (et = ile^ + y · Ptri (et = i Iet^1, et_2) (1)其中，α+β + γ = 1。權重α，β和γ的值可通過對樣本庫的訓練獲得，也可根據經驗指定。一般來說從聲學特徵上對情感的判斷佔的比重應大於情感轉換概率模型的比重，因此α的值應大於β，γ的值，譬如α = 0.6，β = 0.2，γ =0.2，該計算公式中 · Puni (et = i)體現了從聲學特徵上對當前情感的判斷，而β · Pbi (et = D和 Y · Ptri (et = i|et_i，et_2)則體現了從情感轉換概率模型上對情感的估計。在語音情感識別設備初始工作時，可能存在說話人先前情感狀態不存在的情況下，例如在採用二元訓練模型的情況下，當前識別第一個語句的情感狀態。在這樣的情況下，可以忽略相應條件概率(例如設為0)。例如，如果當前輸入語句為整個對話過程中的第一句或第二句，則計算公式(1) 可分別簡化為P(et = i) = α · Puni (et = i)(2)P (et = i) = α · Puni (et = ) + β · Pbi (et = i | ej (3)情感判斷裝置103從分析裝置101所確定的可能情感狀態中選擇最終概率最大的可能情感狀態作為輸入語音的情感狀態。例如，可判定使P(et = i)最大，即M 在語音情感識別設備100中可以設置情感緩存裝置，用來存儲已經識別的每個輸入語音的情感狀態，以便由概率計算裝置102訪問。優選地，情感緩存裝置以先入先出方式存儲預定數目(取決於所採用的訓練模型的最大元數)的來自情感判斷裝置103的情感判斷結果。圖2是示出根據本發明實施例的進行語音情感識別的方法的流程圖。如圖2所示，方法從步驟201開始。在步驟203，將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態。輸入語音可以是說話人所說的一段語音中的一句語音。在對話環境中，可以通過語音特徵來篩選出同一說話人的語音作為輸入。可通過已知技術來獲得輸入語音的情感特徵、訓練情感模型和進行情感特徵與情感模型的匹配。圖4是示出根據本發明實施例的分析步驟的流程圖。如圖4所示，分析步驟從步驟401開始。在步驟403，對輸入語音進行預處理，其中首先對輸入的語音段進行端點檢測，以確定有效音段的開始和結束位置，從而把只包含背景噪聲以及奇異噪聲的部分去除。在步驟405，對經過預處理的輸入語音進行特徵提取。在步驟407，根據提取的特徵進行分類器(情感模型)訓練，以得到情感模型庫。情感模型庫包含多個情感模型。可以根據收集的語料來訓練出各個情感模型。例如，語料可以由大量的客戶與接線員之間的實際對話組成。可以對語料進行切分和情感標注，將對話過程中情感狀態為高興、憤怒、著急、驚奇、中性的語句切分並加以標記，並去除情感狀態或語句受損的句子。最終形成一個具備相當數量的富有各種情感並且表現良好的情感語音訓練庫。可根據已經標註好的情感語音訓練庫，首先將屬於同一類情感的語句歸到一起，再經過與上述預處理和特徵提取相同的處理，提取出能夠代表該類情感的特徵向量作為訓練數據，為每一類情感訓練一個模型。分析步驟在步驟409結束。回到圖2，對於一個輸入語音段，其與每個情感模型的匹配可得到一個關於該輸入語音段屬於相應情感狀態的概率(出現概率)。可以將所有得到非零概率的相應情感狀態作為可能情感狀態。或者，也可以設定一個大於零的閾值，並且將所有概率超過(或等於) 閾值的相應情感狀態作為可能情感狀態。在步驟205，根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下可能情感狀態的最終概率。前面結合圖5描述了條件概率知識，這裡不再重複說明。對於當前語句，得到之前同一說話過程、同一說話人的若干語句(數目取決於所採用的訓練模型)的已確定的情感狀態，並且結合步驟203確定的每個可能情感狀態，從條件概率知識中尋找已確定的情感狀態和可能情感狀態間的條件概率。可以直接將所得到的條件概率作為相應可能情感狀態的最終概率，也可以在步驟
10203確定的可能情感狀態的出現概率之間的差在預定範圍內的情況下，將所得到的條件概率作為相應可能情感狀態的最終概率。優選地，步驟203可以輸出可能情感狀態的出現概率，並且步驟205可以結合出現概率來計算最終概率。例如，可以簡單地將出現概率和條件概率相加以得到最終概率。優選地，最終概率可以基於出現概率和條件概率的加權和，如前面結合公式(1) 所述。在語音情感識別設備初始工作時，可能存在說話人先前情感狀態不存在的情況下，例如在採用二元訓練模型的情況下，當前識別第一個語句的情感狀態。在這樣的情況下，可以忽略相應條件概率(例如設為0)。在步驟207，從步驟203所確定的可能情感狀態中選擇最終概率最大的可能情感
M
狀態作為輸入語音的情感狀態。例如，可判定使P(et = i)最大，即e, =argmaxP(e, 的i
/=1
值作為輸入語音的情感狀態。方法在步驟209結束。在圖2所示的方法中，可以存儲已經識別的每個輸入語音的情感狀態，以便在以後執行步驟205時訪問。優選地，可以以先入先出方式存儲預定數目(取決於所採用的訓練模型的最大元數)的步驟207的情感判斷結果。雖然前面以SVM為例來說明本發明的實施例，然而HMM也適用於本發明。在採用 HMM的情況下，情感模型基於HMM分類器，所提取的特徵為時序頻譜特徵Mel倒譜頻率係數 (MFCC)。MFCC參數的提取針對語音段的每幀進行，每幀語音信號可提取出39維的特徵向量，包括12維基本MFCC參數和對數幀能量以及它們的一階和二階差分。這樣輸入語音段可被表示為個數為幀數的39維特徵向量。根據已經標註好的情感語音訓練庫，首先將屬於同一類情感的語句歸到一起，再經過與所述預處理模塊和特徵提取模塊相同的處理，提取出能夠代表該類情感的特徵向量作為訓練數據，為每一類情感訓練一個模型。具體的HMM訓練過程由於眾多文獻都有詳細論述，這裡就不再展開說明。本實施方式中採用了 5種情感類別的劃分方法，分別是高興，憤怒，著急，驚奇，中性。當然情感的劃分還有更多的方法，比如有人劃分為正面，負面，中性三種情感或更加詳細的劃分。為每一類情感訓練一個HMM模型，該模型能夠對輸入的語音特徵向量與本情感模型的匹配程度做出一個概率估計。經過特徵提取之後，輸入語音段可被表示為一個個數為幀數的39維特徵向量X = Ix1,X2,.. · %}，N為該語音段的幀數。將該特徵向量與所訓練的5種HMM情感模型KMMi(I) } i = 1，2，3，4，5進行解碼計算，每一個HMM情感模型都會計算出該特徵向量屬於本情感模型的概率值Pk =O=HMMiG)由於HMM模型的使用在本領域非常普遍，其計算方法在
ο
很多文獻都有詳細描述(例如可參考L Rabiner.的「A tutorial onHMM and selected applications in speech recognition", Proc. IEEE, 1989, 77 (2) :257_286)，這裡不再詳細描述。同樣，通過與情感模型匹配而獲得的出現概率Pi可看作一元(Uni-gram)訓練模型，即
Puni (et = O = Pi = HMMi ( )， = 1,2,3,4,5在本發明的語音情感識別設備和方法中，基於同一說話人前後情感變化的統計知識，以及表徵語音情感的韻律和頻譜特徵對一段對話過程中的語音進行情感識別。另外，還應該指出的是，上述系列處理和裝置即可以通過硬體實現，也可以通過軟件和固件實現。在通過軟體或固件實現的情況下，從存儲介質或網絡向具有專用硬體結構的計算機，例如圖6所示的通用計算機600安裝構成該軟體的程序，該計算機在安裝有各種程序時，能夠執行各種功能等等。在圖6中，中央處理單元(CPU)601根據只讀存儲器(ROM)602中存儲的程序或從存儲部分608加載到隨機存取存儲器(RAM) 603的程序執行各種處理。在RAM 603中，也根據需要存儲當CPU 601執行各種處理等等時所需的數據。CPU 601、ROM 602和RAM 603經由總線604彼此連接。輸入/輸出接口 605也連接到總線604。下述部件連接到輸入/輸出接口 605 輸入部分606，包括鍵盤、滑鼠等等；輸出部分607，包括顯示器，比如陰極射線管(CRT)、液晶顯示器(IXD)等等，和揚聲器等等；存儲部分608，包括硬碟等等；和通信部分609，包括網絡接口卡比如LAN卡、數據機等等。通信部分609經由網絡比如網際網路執行通信處理。根據需要，驅動器610也連接到輸入/輸出接口 605。可拆卸介質611比如磁碟、光碟、磁光碟、半導體存儲器等等根據需要被安裝在驅動器610上，使得從中讀出的計算機程序根據需要被安裝到存儲部分608中。在通過軟體實現上述系列處理的情況下，從網絡比如網際網路或存儲介質比如可拆卸介質611安裝構成軟體的程序。本領域的技術人員應當理解，這種存儲介質不局限於圖7所示的其中存儲有程序、與設備相分離地分發以向用戶提供程序的可拆卸介質611。可拆卸介質611的例子包含磁碟(包含軟盤(註冊商標))、光碟(包含光碟只讀存儲器(⑶-ROM)和數字通用盤 (DVD))、磁光碟(包含迷你盤(MD)(註冊商標))和半導體存儲器。或者，存儲介質可以是 ROM 602、存儲部分608中包含的硬碟等等，其中存有程序，並且與包含它們的設備一起被分發給用戶。還需要指出的是，執行上述系列處理的步驟可以自然地按照說明的順序按時間順序執行，但是並不需要一定按照時間順序執行。某些步驟可以並行或彼此獨立地執行。雖然已經詳細說明了本發明及其優點，但是應當理解在不脫離由所附的權利要求所限定的本發明的精神和範圍的情況下可以進行各種改變、替代和變換。
1權利要求
一種語音情感識別設備，包括分析裝置，其將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態；概率計算裝置，其根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下所述可能情感狀態的最終概率；和情感判斷裝置，其從所述可能情感狀態中選擇最終概率最大的可能情感狀態作為所述輸入語音的情感狀態。
2.根據權利要求1所述的語音情感識別設備，其中所述條件概率知識包括說話人在連續說話過程中相鄰兩句和/或三句話的情感狀態之間轉換的條件概率知識。
3.根據權利要求1所述的語音情感識別設備，還包括情感緩存裝置，用於以先入先出方式存儲預定數目的來自情感判斷裝置的情感判斷結果。
4.根據權利要求1所述的語音情感識別設備，其中所述分析裝置進一步被配置為輸出所述可能情感狀態的出現概率，並且所述概率計算裝置被進一步配置為結合所述出現概率來計算所述最終概率。
5.根據權利要求4所述的語音情感識別設備，其中所述最終概率基於所述出現概率和條件概率的加權和。
6.根據權利要求1所述的語音情感識別設備，其中在說話人先前情感狀態不存在的情況下忽略相應條件概率。
7.根據權利要求1所述的語音情感識別設備，其中所述情感模型基於從包括SVM、HMM、 GMM、神經網絡、距離分類器以及其組合的組中選擇的方法。
8. 一種進行語音情感識別的方法，包括將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態；根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下所述可能情感狀態的最終概率；和從所述可能情感狀態中選擇最終概率最大的可能情感狀態作為所述輸入語音的情感狀態。
9.根據權利要求8所述的方法，其中所述條件概率知識包括說話人在連續說話過程中相鄰兩句和/或三句話的情感狀態之間轉換的條件概率知識。
10.根據權利要求8所述的方法，還包括以先入先出方式存儲預定數目的情感判斷結^ ο
11.根據權利要求8所述的方法，其中所述多個可能情感狀態的確定包括輸出所述可能情感狀態的出現概率，並且所述最終概率的計算包括結合所述出現概率來計算所述最終概率。
12.根據權利要求11所述的方法，其中所述最終概率基於所述出現概率和條件概率的加權和。
13.根據權利要求8所述的方法，其中在說話人先前情感狀態不存在的情況下忽略相應條件概率。
14.根據權利要求8所述的方法，其中所述情感模型基於從包括SVM、HMM,GMM、神經網絡、距離分類器以及其組合的組中選擇的方法。
全文摘要
語音情感識別設備和進行語音情感識別的方法。語音情感識別設備包含分析裝置，其將輸入語音的情感特徵與多個情感模型進行匹配，以確定多個可能情感狀態；概率計算裝置，其根據說話人說話過程中情感狀態之間的轉換的條件概率知識，計算在說話人先前情感狀態的條件下所述可能情感狀態的最終概率；和情感判斷裝置，其從所述可能情感狀態中選擇最終概率最大的可能情感狀態作為所述輸入語音的情感狀態。
文檔編號G10L19/06GK101930735SQ200910150458
公開日2010年12月29日申請日期2009年6月23日優先權日2009年6月23日
發明者李鵬, 王彬, 郭慶, 陸應亮申請人:富士通株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音情感識別設備和進行語音情感識別的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法