非特定人語音情感識別方法及系統的製作方法

2023-12-05 04:26:11 2

專利名稱：非特定人語音情感識別方法及系統的製作方法
技術領域：
本發明涉及語音識別技術領域，尤其涉及一種非特定人語音情感識別方法及系統。
背景技術：
語音情感識別技術的發展對推動智能化、人性化的新型人機互動技術的發展和應用具有重要的作用，如何使用計算機技術從語音中自動識別說話人的情感狀態近年來受到各領域研究者的廣泛關注。現有的語音情感識別研究，還存在較多局限性，尤其是語音情感特徵參數在情感空間的分布會隨著說話人的變化而變化，情感識別的準確率受說話人變化的影響較大，從而導致當待識別語音的說話人不在訓練庫中時，情感識別率會急劇下降，限制了語音情感識別在自然環境下的實際應用。目前，消除聲學情感特徵中說話人個性化因素最常用的方法是採用說話人的中性情感語音特徵對情感特徵參數進行歸一化，如東南大學的趙力教授和浙江大學的謝波博士均採用將情感特徵與說話人處於平靜時的相應情感特徵作差值運算的方法對情感特徵進行歸一化。這種採用中性情感語音特徵對情感特徵參數進行歸一化的方法雖然能夠在一定程度上消除說話人個性化說話特徵的影響，但是必須要求待識別語音的說話人在識別前至少錄製一句中性情感語句，這種要求在一定程度上限制了語音情感識別的實際應用。Vidhyasaharan Sethu等人提出了將所有的情感特徵映射到同一種概率分布(正態分布)上，以此消除說話人個人說話特徵對情感特徵的分布帶來的幹擾，但將所有說話人的情感特徵映射到正態分布是否能夠有效地消除說話人個人說話特點的幹擾且不丟失其中的情感信息，還缺乏理論的分析。有鑑於此，有必要提供一種非特定人語音情感識別方法及系統以解決上述問題。

發明內容
本發明的目的在於克服現有語音情感識別方法的語音情感識別率容易受說話人變化影響的缺點，充分利用情感副語言受說話人變化幹擾較小的特點，提供一種情感副語言輔助的非特定人語音情感識別方法及系統。實現本發明目的的技術方案是—種非特定人語音情感識別方法，包括SI.提取待識別語音信號中用於識別情感副語言的語音特徵，輸入情感副語言識別模型，得出待識別語音信號所包含的情感副語言，並根據情感副語言與情感類別之間的對應關係，推測出基於情感副語言的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；S2.提取待識別情感語音信號的聲學語音情感特徵，輸入基於聲學語音情感特徵的語音情感識別模型，得出基於聲學語音情感特徵的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；S3.對所述基於情感副語言的情感識別通道和基於聲學語音情感特徵的語言情感識別通道的識別結果進行融合，得出待識別情感語音信號所包含的情感狀態。作為本發明的進一步改進，所述步驟SI之前還包括下列步驟S01.建立基於情感副語言的語音情感識別通道，包括S011.建立情感語料庫，使其中語音信號樣本涉及的情感中的每種情感至少有15個語料，每個語料包含所述情感副語言；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲； S012.對所述語音信號樣本進行預處理，包括預加重、加窗處理、分幀、端點檢測；S013.在所述語音信號中提取所述識別情感副語言所用的語音特徵；S014.訓練情感副語言識別模型；S015.建立基於情感副語言的語音情感狀態識別模型，基於情感副語言的語音情感狀態識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關係模型，用於識別情感副語言，以及情感副語言所對應的情感類別和該情感類別的置信度，並得到所述基於情感副語言的語音情感識別通道識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒，所述情感副語言與情感類別之間的映射關係具體為「笑聲」對應「高興」情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怒」情感類別；S02.建立基於聲學語音情感特徵的語音情感識別通道，包括S021.採用SOll所錄製的情感語料庫；S022.對所述語音信號樣本進行預處理，包括預加重、加窗處理、分幀、端點檢測；S023.在所述語音信號中提取聲學語音情感特徵；S024.訓練基於聲學語音情感特徵的情感識別模型；S025.建立基於聲學語音情感特徵的的情感狀態識別模型，用於根據聲學語音情感特徵識別語音信號所包含的情感類別和該情感類別的置信度，並得到所述基於聲學語音情感特徵的情感識別通道識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。作為本發明的進一步改進，所述識別情感副語言所用的語音特徵包括語音的短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述這些特徵的最大值、最小值以及變化範圍；所述聲學語音情感特徵包括，包括短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數，以及所述聲學語音情感特徵的最大值、最小值以及變化範圍；作為本發明的進一步改進，所述步驟SI具體包括Sll.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測；S12.從所述待識別語音信號樣本中提取識別情感副語音所用的語音特徵，包括提取短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述這些語音特徵的最大值、最小值以及變化範圍；S13.將提取的所述語音特徵輸入所述基於情感副語言的情感狀態模型，通過情感副語言識別模型集識別，得到待識別語音信號樣本中包含的情感副語言及其置信度；通過所述情感副語言與情感類別之間的映射關係模型，得到所述情感副語言對應的情感類別及該情感類別的置信度，並進一步得到所述基於情感副語言的語音情感識別通道的識別結果O作為本發明的進一步改進，所述步驟S2具體包括S21.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測；
S22.從所述的待識別語音信號樣本中的提取聲學語音情感特徵，包括美爾倒譜係數、基頻、時長、強度、振幅、音質、共振峰等，以及所述聲學語音情感特徵的最大值、最小值以及變化範圍；S23.將提取的所述聲學語音情感特徵輸入所述基於聲學語音情感特徵的情感狀態識別模型，得到所述語音信號所包含的情感類別及該情感類別的置信度，即得到所述基於聲學語音情感特徵的語音情感識別通道的識別結果。作為本發明的進一步改進，所述情感副語言識別模型採用支持向量機、高斯混合模型或隱馬爾科夫模型；所述基於聲學語音情感特徵的情感語言識別模型採用支持向量機、高斯混合模型或隱馬爾科夫模型。相應地，一種非特定人語音情感識別系統，包括識別情感副語言所用的語音特徵提取單元用於提取待識別語音信號中用於識別情感副語言的語音特徵，輸入情感副語言識別模型，得出待識別語音信號所包含的情感副語言，並根據情感副語言與情感類別之間的對應關係，推測出基於情感副語言的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；所述識別情感副語言所採用的語音特徵包括語音的短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述這些語音特徵的最大值、最小值以及變化範圍；聲學語音情感特徵提取單元用於提取待識別情感語音信號的聲學語音情感特徵，輸入基於聲學語音情感特徵的情感識別模型，得出待識別語音信號所包含的情感狀態，即得出基於聲學語音情感特徵的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；融合單元用於對所述基於情感副語言的情感識別通道和基於聲學語音情感特徵的情感識別通道的識別結果進行融合，得出待識別情感語音信號所包含的情感狀態。作為本發明的進一步改進，所述非特定人語音情感識別系統還包括基於情感副語言的情感識別通道，其中包括情感語料庫，語音信號樣本涉及的情感中的每種情感至少有15個語料，每個語料包含至少一種所述情感副語言；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；識別情感副語言所採用的語音特徵提取單元，用於在所述語音信號中提取所述識別情感副語言所採用的語音特徵；情感副語言識別模型訓練單元，用於訓練情感副語言識別模型；基於情感副語言的情感狀態識別模型，包括情感副語言識別模型集和情感副語言與情感類別之間的映射關係模型，所述情感類別包括高興、悲傷、害怕、厭惡、驚訝和憤怒六類情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怕、驚訝、厭惡、憤怒，所述副語言與情感類別之間的映射關係具體為「笑聲」對應「高興」情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怒」情感類別；基於聲學情感特徵的情感狀態識別通道，包括情感語料庫，採用基於情感副語言的語音情感識別通道的情感語料庫；聲學語音情感特徵提取單元，用於在所述語音信號中提取聲學語音情感特徵；基於聲學語音情感特徵的情感識別模型訓練單元，用於訓練基於聲學情感特徵的情感識別模型；基於聲學語音情感特徵的情感狀態識別模型，用於根據聲學語音情感特徵識別語音信號所包含的情感類別和該情感類別的置信度，即得到所述基於聲學語音情感特徵的情感識別通道識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒；融合單元，用於融合所述基於情感副語言的情感識別通道和基於聲學語音情感特徵的情感識別的識別結果，得出情感語音信號樣本所包含的情感狀態。作為本發明的進一步改進，所述基於情感副語言的情感識別通道訓練單元中，採用的統計模型可以為支持向量機、高斯混合模型或隱馬爾科夫模型；所述基於聲學語音情感特徵的情感識別訓練單元中，採用的統計模型可以為支持向量機、高斯混合模型或隱馬爾科夫模型。作為本發明的進一步改進，所述識別情感副語言所用的語音特徵提取單元和聲學語音情感特徵提取單元之前設有預處理單元，預處理單元用於對情感語音信號進行預處理，包括分幀、加窗和端點檢測；作為本發明的進一步改進，所述識別情感副語言的語音特徵包括提取短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述這些語音特徵的最大值、最小值以及變化範圍；所述聲學語音情感特徵包括提取美爾倒譜係數、基頻、時長、強度、振幅、音質、共振峰，以及所述聲學語音情感特徵的最大值、最小值以及變化範圍。本發明的有益效果是克服了傳統語音情感特徵易受說話人變化幹擾的不足，充分利用情感副語言受說話人變化的影響比較小的特點，從情感語音信號中提取反應情感信息的情感副語言，用情感副語言包含的情感信息來輔助傳統的聲學語音情感特徵進行情感識別，從而達到提高語音情感識別魯棒性和識別率的目的。

圖I為本發明一實施例中非特定人語音情感識別方法的流程圖。圖2為圖I中步驟SI的具體流程圖。圖3為圖I中步驟S2的具體流程圖。圖4為本發明非特定人語音情感識別方法的框架圖。圖5為本發明非特定人語音情感識別系統的示意圖。
具體實施方式
為了使本技術領域的人員更好地理解本申請中的技術方案，下面將結合本申請實施例中的附圖，對本申請實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分實施例，而不是全部的實施例。基於本申請中的實施例，本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本申請保護的範圍。參圖I所示為本發明非特定人語音情感識別方法的流程圖。該方法包括SI.提取待識別語音信號中用於識別情感副語言的語音特徵，輸入情感副語言識別模型，得出待識別語音信號所包含的情感副語言，並根據情感副語言與情感類別之間的對應關係，推測出基於情感副語言的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；S2.提取待識別情感語音信號的聲學語音情感特徵，輸入基於聲學語音情感特徵的情感識別模型，得出基於聲學語音情感特徵的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率；S3.對基於情感副語言的情感識別通道和基於聲學語音情感特徵的情感識別通道的識別結果進行融合，得出待識別情感語音信號所包含的情感狀態。優選地，在步驟SI之前還包括下列步驟S01.建立基於情感副語言的情感識別通道，包括S011.建立情感語料庫，使其中語音信號樣本涉及的情感中的每種情感至少有15個語料，每個語料至少包含一種情感副語言；情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；S012.對語音信號樣本進行預處理，包括預加重、加窗處理、分幀、端點檢測；S013在預處理後的語音信號中提取識別情感副語言的語音特徵；S014.訓練情感副語言識別模型；S015.建立基於情感副語言的情感狀態識別模型，基於情感副語言的情感狀態識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關係模型，用於識別情感副語言，以及情感副語言所對應的情感類別和該情感類別的置信度，並得到基於情感副語言煩人情感識別通道識別結果；情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒，情感副語言與情感類別之間的映射關係具體為「笑聲」對應「高興」情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怒」情感類別；
S02.建立基於聲學語音情感特徵的情感識別通道，包括S021.採用SOll中所建立的情感語料庫；S022.對語音信號進行預處理，包括預加重、加窗處理、分幀、端點檢測；S023.在經過預處理後的語音信號中提取聲學語音情感特徵；S024.訓練基於聲學語音情感特徵的情感識別模型；S025.建立基於聲學語音情感特徵的情感識別模型，用於根據聲學情感特徵，識別語音信號中所包含的情感類別和該情感類別的置信度，即得到基於聲學語音情感特徵的情感識別通道識別結果；情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。本發明中的識別情感副語言所採用的語音特徵包括語音的短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些語音特徵的最大值、最小值以及變化範圍；聲學語音情感特徵包括，包括短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數，以及這些聲學語音情感特徵的最大值、最小值以及變化範圍；其中，參圖2所示,步驟SI具體包括Sll.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測；S12.從待識別語音信號樣本中提取識別情感副語音所採用的語音特徵，包括提取短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些語音特徵的最大值、最小值以及變化範圍；S13.將提取的語音特徵輸入基於情感副語言的情感狀態模型，通過情感副語言識別模型集識別，得到待識別語音信號樣本中包含的情感副語言及其置信度；通過情感副語言與情感類別之間的映射關係模型識別，得到情感副語言對應的情感類別及該情感類別的置信度，即得到基於情感副語言的情感識別通道的識別結果。參圖3所示,步驟S2具體包括S21.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測；S22.從的待識別語音信號樣本中的提取聲學語音情感特徵，包括美爾倒譜係數、基頻、時長、強度、振幅、音質、共振峰等，以及聲學語音情感特徵的最大值、最小值以及變化範圍；S23.將提取的聲學語音情感特徵輸入基於聲學語音情感特徵的情感狀態識別模型，得到待識別語音信號所包含的情感類別及該情感類別的置信度，即得到基於聲學語音情感特徵的情感識別通道的識別結果。本發明通過提取情感語料中的情感副語言來輔助傳統聲學語音情感特徵進行情感語料中情感狀態的識別，為語音情感識別提供更多的說話人魯棒的語音情感信息，最終提高語音情感識別方法對說話人變化的魯棒性。本發明中的情感副語言屬於狹義副語言範疇，內容包括伴隨語音的某些聲音現象，如哭聲、笑聲、嘆息聲等。情感語料庫中錄製了涵蓋日常生活中常用的情感副語音，如哭聲、笑聲、嘆息聲、喘息聲、質疑聲以及叫喊聲等。語料庫包含六類情感，分別為高興、傷心、驚奇、生氣、害怕、厭惡。根據語境自然的嵌入情感副預言，如高興常伴有笑聲，傷心常伴有哭聲等。每種情感有15個語料，每個語料都易於加入相應的情感，使得錄製者較易進入情感狀態。所有腳本內容不同，且包含較豐富的情感副語言如哭聲、笑聲、嘆息聲等。優選地，情感語料庫由五個男生六個女生在專業的錄音室錄製而成，採樣率為11025Hz，樣本均保存為wav格式。採集好情感語料後，本發明的具體實施分為訓練、識別和融合三個階段，結合圖4所示，分別從訓練、識別和融合三個階段作進一步說明。一、訓練階段I、對情感語音信號進行預處理這一步是採用傳統的語音信號預處理方法對情感語音信號進行預處理，包括預加重、加窗處理、分幀、端點檢測。2、識別情感副語言所採用的語音特徵的提取和情感副語言識別模型的訓練 2. I提取識別情感副語言所用的語音特徵，包括短時能量、過零率、梅爾倒譜係數(前12個係數)、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些特徵的最大值、最小值以及變化範圍等統計特徵。2. 2對情感副語言識別模型進行訓練，這裡的識別模型可採用諸如SVM(SupportVector Machine 支持向量機)、GMM(Gaussian Mixture Model 高斯混合模型)以及HMM(Hidden Markov Model隱馬爾科夫模型)之類的各種統計模型。3、傳統的聲學語音情感特徵的提取和基於聲學語音情感特徵的語音情感識別模型的訓練3. I提取包括美爾倒譜係數、基頻、時長、強度、振幅、音質以及共振峰等語音的聲學語音情感特徵，並在情感語段上分別提取這些特徵的最大值、最小值以及變化範圍等統計特徵。3. 2對基於聲學語音情感特徵的語音情感識別模型進行訓練，這裡的識別模型可採用諸如SVM、GMM以及HMM之類的各種統計模型，方法與本階段第2. 2步相同。二、識別階段識別階段是將待識別的情感語音信號輸入第一階段訓練好的模型，計算得出該情感語音信號在每個通道的情感狀態識別結果，分三步實施。I、對情感語音信號進行預處理，所採用的方法同訓練階段的第I步。2、待識別情感語音信號中識別情感副語言所用的語音特徵的提取和基於情感副語目的語首情感識別。2. I提取待識別情感語料中識別情感副語言所採用的語音特徵，所採用的方法同訓練階段的2. I步。2. 2識別待識別情感語料中所包含的情感副語言。將本階段2. I步所提取的待識別語料中識別情感副語言所採用的語音特徵輸入第一階段2. 2步已經訓練好的情感副語言識別模型，計算得出該待識別情感語音信號所包含的情感副語目。2. 3建立情感副語言的語音情感狀態之間的映射關係，並將此時情感副語言識別的置信度作為相應的情感狀態的置信度。建立情感副語言與情感狀態之間的映射關係如下若識別出待識別情感語音信號中的情感副語言為「笑聲」，則推斷該情感語音信號所反映的是「高興」情感狀態；
若識別出待識別情感語音信號中的情感副語言為「傷心的哭聲」，則推斷該情感語音信號所反映的是「悲傷」情感狀態；若識別出待識別情感語音信號中的情感副語言為「害怕的哭聲」，則推斷該情感語音信號所反映的是「害怕」情感狀態；若識別出待識別情感語音信號中的情感副語言為「質疑聲」，則推斷該情感語音信號所反映的是「驚訝」情感狀態；若識別出待識別情感語音信號中的情感副語言為「急促的喘息聲」，則推斷該情感語音信號所反映的是「害怕」情感狀態；若識別出待識別情感語音信號中的情感副語言為「無奈的嘆息聲」，則推斷該情感語音信號所反映的是「厭惡」情感狀態；若識別出待識別情感語音信號中的情感副語言為「哀怨的嘆息聲」，則推斷該情感語音信號所反映的是「悲傷」情感狀態；若識別出待識別情感語音信號中的情感副語言為「叫喊聲」，則推斷該情感語音信號所反映的是「憤怒」情感狀態。3、提取待識別情感語音信號的聲學語音情感特徵並採用所提取的聲學語音情感特徵識別待識別情感語音信號所包含的情感狀態。3. I待識別情感語音信號的聲學語音情感特徵的提取，所採用的提取方法同訓練階段的3. I步。3. 2將本階段3. I步所提取的待識別語料的聲學語音情感特徵輸入第一階段3. 2步已經訓練好的基於聲學語音情感特徵的語音情感識別模型，得出該待識別情感語音信號所屬的情感狀態。其中，在步驟2. 2和3. 2中的基於SVM模型概率置信度計算方法如下優選地，本發明使用『一對一』 SVM模型進行分類識別，SVM決策是採用投票機制的，對於N個模型，相當於有N* (N-1)個專家進行投票，每個情感類別均有一個概率，概率最高者被選為最終識別結果。算法所用的基於SVM的置信度由兩部分組成I、計算待測樣本到分類決策面距離，距離大於一定閾值時，即決策函數值大於一定的閾值時，取這N*(N-I)個決策距離的平均值。我們接受投票即認為專家投票是有效的，否則認為無效不計入總票數。對於類別i，其得到的有效票數為V，而其可信投票數為V，則類別i對應的概率置信度為conf (i)=v/V。2、計算情感概率之間的解析度，對N個情感類別，每個待識別樣本經模型識別後得出對應的該樣本屬於N個情感概率，記為P1, P2，. . . Pn,則輸出概率Pi的解析度為該輸出概率與其餘所有輸出概率的平均值之差，其計算方法如公式(I)所示
權利要求
1.一種非特定人語音情感識別方法，其特徵在於，所述方法包括 51.提取待識別語音信號中用於識別情感副語言的語音特徵，輸入情感副語言識別模型，得出待識別語音信號所包含的情感副語言，並根據情感副語言與情感類別之間的對應關係，推測出副語言情感識別通道的情感識別結果待識別語音信號所包含的情感類別以及相應的概率；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲； 52.提取待識別情感語音信號的聲學情感特徵，輸入基於聲學情感特徵的語音情感識別模型，得出基於聲學語音情感特徵的情感識別通道的識別結果待識別語音信號所包含的情感類別以及相應的概率； 53.對所述基於副語言的情感識別通道和基於聲學語音情感特徵的情感識別通道的識別結果進行融合，得出待識別情感語音信號所包含的情感狀態。
2.據根權利要求I所述的非特定人語音情感識別方法，其特徵在於，所述步驟SI之前還包括下列步驟 501.建立基於情感副語言的語音情感識別通道，包括 5011.建立情感語料庫，使其中語音信號樣本涉及的情感中的每種情感至少有15個語料，每個語料包含至少一種或多種所述情感副語言；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲； 5012.對所述語音信號樣本進行預處理，包括預加重、加窗處理、分幀、端點檢測； 5013.在所述語音信號樣本中提取用於識別所述情感副語言的語音特徵； 5014.訓練情感副語言識別模型； 5015.建立基於情感副語言的情感狀態識別模型，基於情感副語言的情感狀態識別模型中包括情感副語言識別模型集和情感副語言與情感類別之間的映射關係模型，用於識別情感副語言，以及情感副語言所對應的情感類別和該情感類別的置信度，並得到所述基於副語言的語音情感識別通道的識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡、憤怒，所述情感副語言與情感類別之間的映射關係具體為「笑聲」對應「高興」情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怒」情感類別； 502.建立基於聲學情感特徵的語音情感識別通道，包括 5021.採用SOll所建立的情感語料庫； 5022.對所述語音信號樣本進行預處理，包括預加重、加窗處理、分幀、端點檢測； 5023.對預處理後的語音信號提取聲學語音情感特徵； 5024.訓練基於聲學語音情感特徵的語音情感識別模型； 5025.建立基於聲學語音情感特徵的情感狀態識別模型，當待識別語音信號經過訓練好的基於聲學語音情感特徵的語音情感識別模型，得到所述基於聲學語音情感特徵的情感識別通道識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒。
3.根據權利要求I或2所述的非特定人語音情感識別方法，其特徵在於，所述識別情感副語言所用的語音特徵包括語音的短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些語音特徵的最大值、最小值以及變化範圍；所述聲學語音情感特徵包括，包括短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數，以及所述傳統語言語音特徵的最大值、最小值以及變化範圍。
4.根據權利要求2所述的非特定人語音情感識別方法，其特徵在於，所述步驟SI具體包括 511.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測； 512.從所述待識別語音信號樣本中提取識別情感副語音所用的語音特徵，包括提取短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些語音特徵的最大值、最小值以及變化範圍； 513.將提取的所述語音特徵輸入所述基於情感副語言的情感狀態識別模型，通過副語言識別模型集識別，得到待識別語音信號樣本中包含的情感副語言及其置信度；通過所述情感副語言與情感類別之間的映射關係模型識別，得到待識別語音信號所包含的情感類別及該情感類別的置信度，即得到待識別語音信號在所述的基於情感副語言的語音情感識別通道的識別結果。
5.根據權利要求2所述的非特定人語音情感識別方法，其特徵在於，所述步驟S2具體包括 521.對待識別語音信號樣本進行預處理，包括分幀、加窗和端點檢測； 522.從所述的待識別語音信號樣本中的提取聲學語音情感特徵，包括美爾倒譜係數、基頻、時長、強度、振幅、音質、共振峰等，以及所述聲學情感特徵的最大值、最小值以及變化範圍； 523.將提取的所述聲學語音情感特徵輸入所述基於聲學情感特徵的語音情感狀態識別模型，得到語音信號所包含的情感類別及該情感類別的置信度，即得到所述基於聲學情感特徵的語音情感識別通道的識別結果。
6.根據權利要求2所述的非特定人語音情感識別方法，其特徵在於，所述訓練情感副語言識別模型中，採用的統計模型可以為支持向量機、高斯混合模型或隱馬爾科夫模型等統計模型；所述訓練基於聲學語音情感特徵的語音情感識別模型中，採用的統計模型可以為支持向量機、高斯混合模型或隱馬爾科夫模型等統計模型。
7.一種非特定人語音情感識別系統，其特徵在於，所述系統包括基於情感副語言的語音情感識別通道，其中包括情感語料庫，語音信號樣本涉及的情感中的每種情感至少有15個語料,每個語料包含至少一種所述情感副語言；所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；用於識別情感副語言的語音特徵提取單元用於提取待識別語音信號中用於識別情感副語言的語音特徵，再輸入情感副語言識別模型，得出待識別語音信號所包含的情感副語言及其概率。所述情感副語言包括笑聲、傷心的哭聲、害怕的哭聲、質疑聲、急促的喘息聲、無奈的嘆息聲、哀怨的嘆息聲以及叫喊聲；所述的用於識別情感副語言的語音特徵包括語音的短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及這些語音特徵的最大值、最小值以及變化範圍；情感副語言識別模型訓練單元，用於訓練情感副語言識別模型；基於情感副語言的情感狀態識別模型，包括情感副語言識別模型集和情感副語言與情感類別之間的映射關係模型，所述情感類別包括高興、悲傷、害怕、驚訝、憤怒、厭惡六類情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怕、驚訝、厭惡、憤怒，所述副語言與情感類別之間的映射關係具體為「笑聲」對應「高興」情感類別，「傷心的哭聲」對應「悲傷」情感類別，「害怕的哭聲」對應「害怕」情感類別，「質疑聲」對應「驚訝」情感類別，「急促的喘息聲」，對應「害怕」情感類別，「無奈的嘆息聲」對應「厭惡」情感類別，「哀怨的嘆息聲」對應「悲傷」情感類別，「叫喊聲」對應「憤怒」情感類別；基於聲學語音情感特徵的語音情感識別通道，包括情感語料庫採用基於情感副語言的語音情感識別通道中所錄製的情感語料庫；聲學語音情感特徵提取單元用於提取待識別情感語音信號中的聲學語音情感特徵，所述的聲學語音情感特徵包括短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述聲學語音特徵的最大值、最小值以及變化範圍；傳統語言識別模型訓練單元，用於訓練傳統語言識別模型；基於聲學語音情感特徵的語音情感狀態識別模型，該模型根據聲學語音情感特徵，識別情感語料中所包含的情感類別，並得到該情感類別的置信度，即得到所述基於聲學語音情感特徵的語音情感識別通道識別結果；所述情感類別包括高興、悲傷、害怕、驚訝、厭惡和憤怒；融合單元，用於融合所述基於情感副語言的語音情感識別通道和基於聲學語音情感特徵的語音情感識別通道的情感識別結果，得出情感語音信號樣本所包含的情感狀態。
8.根據權利要求6所述的非特定人語音情感識別系統，其特徵在於，所述副語言通道中，採用的統計模型為支持向量機、高斯混合模型或隱馬爾科夫模型；所述聲學語音情感特徵通道中，採用的統計模型為支持向量機、高斯混合模型或隱馬爾科夫模型。
9.根據權利要求6所述的非特定人語音情感識別系統，其特徵在於，所述識別情感副語言的語音特徵提取單元和聲學語音情感特徵提取單元之前設有預處理單元,包括分巾貞、加窗和端點檢測。
10.根據權利要求6所述的非特定人語音情感識別系統，其特徵在於，所述提取識別情感副語言的語音特徵包括提取短時能量、過零率、梅爾倒譜係數、基音頻率、音質、靜音比率、前三個共振峰係數等，以及所述這些語音特徵的最大值、最小值以及變化範圍；所述提取聲學語音情感特徵包括提取美爾倒譜係數、基頻、時長、強度、振幅、音質、共振峰等，以及所述聲學語音情感特徵的最大值、最小值以及變化範圍。
全文摘要
本發明提供了一種非特定人語音情感識別方法及系統，其中該方法包括提取待識別語音信號中用於識別情感副語言的語音特徵；提取待識別情感語音信號的聲學語音情感特徵；對所述基於情感副語言的情感識別通道和基於聲學語音情感特徵的情感識別通道的識別結果進行融合，得出待識別情感語音信號所包含的情感狀態。本發明利用情感副語言特徵受說話人變化的影響比較小的特點，從情感語音信號中提取反應情感信息的情感副語言，用情感副語言包含的情感信息來輔助傳統的聲學語音情感特徵進行情感識別，從而達到提高語音情感識別魯棒性和識別率的目的。
文檔編號G10L15/02GK102881284SQ20121032178
公開日2013年1月16日申請日期2012年9月3日優先權日2012年9月3日
發明者毛啟容, 趙小蕾, 詹永照, 白李娟, 王治鋒, 楊華宇申請人:江蘇大學

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

非特定人語音情感識別方法及系統的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法