一種多模態的非接觸情感分析記錄系統的製作方法
2023-06-04 12:52:26 1
一種多模態的非接觸情感分析記錄系統的製作方法
【專利摘要】本發明公開了一種基於多模態的非接觸情感分析記錄系統,其特徵是組成包括:用於完成從外界環境接收聲音的聲音接收模塊、用於獲取語音的音頻情感標註信息的聲音特徵提取與處理模塊、用於完成語音內容到文本內容的轉換的語音識別模塊、用於獲取語音的文本情感標註信息的文本特徵提取與處理模塊、用於完成所有數據處理,存儲,調度任務的綜合調度模塊、用於完成檢測到的語音情感狀態的顯示的顯示模塊和用於完成時間記錄和提供時間標籤的功能的時鐘模塊。本發明能綜合文本和音頻兩個模態對語音情感進行識別,從而提高識別的準確性。
【專利說明】一種多模態的非接觸情感分析記錄系統
【技術領域】
[0001] 本發明涉及人機情感交互領域,具體地說是一種多模態的非接觸情感分析記錄系 統。
【背景技術】
[0002] 語言是人與人之間交流最重要的工具,人類的話語中包括了文本符號信息,還飽 含了人們的情感,從語音中進行情感信息特徵的人工處理,在人工智慧領域具有重要意義。 人類通過語言來交流,人類的情感是通過多通道多模態表達的,例如通過語言內容、音頻、 表情和肢體動作等表達情感,語音情感識別就是從語音信號中識別出說話人的情感信息。
[0003] 目前的研究主要從語音韻律中提取情感特徵信息,語音情感識別系統主要依靠語 音的低層次聲學特徵來進行識別,具有代表性的特徵是基音頻率、共振峰、短時平均過零率 和發音持續時間等,這種方法用往往容易導致特徵維數較高,模式識別研究表明,準確率不 與特徵空間的維數成正比,且在高維情況下泛化能力反而會減弱,甚至導致維數災難。
[0004] 也有從語言學的角度考慮語音信號中的情感分析,考慮語音文本的語義成分,利 用語句的語義和語法提供說話人的情感線索,其中基於的參數主要是情感用語、冗長程度、 目的頻率、對話歷史、詞的頻率等內容;此方法的不足之處為需要大量的知識,這首先給語 音識別就帶來了難度,進行語義分析,又需要相關語言知識,這又給情感分析增加了難度, 方法複雜,在現階段難以實現。
[0005] 在語音情感信息處理領域幾乎利用了所有的模式識別手段,例如人工神經網絡 (ANN),隱馬爾可夫模型(HMM),混合高斯模型(GMM),支持向量機(SVM)等,但是如果將所有 的這些成果放在一起比較,可以發現特徵提取的手段極其局限,幾乎所有研究都是採用韻 律特徵或者這些韻律特徵的線性組合和變換作為研究對象,大多只是在音頻這個模態進行 特徵提取與分析,使語音情感特徵總是局限在一個較小的範疇,不夠全面。
【發明內容】
[0006] 本發明克服了現有技術的不足之處,提供一種基多模態的非接觸情感分析記錄系 統,能綜合文本和音頻兩個模態對語音情感進行識別,從而提高識別的準確性。
[0007] 本發明為解決技術問題採用如下技術方案:
[0008] 本發明一種基於多模態的非接觸情感分析記錄系統的特點是組成包括:聲音接收 模塊、聲音特徵提取與處理模塊、語音識別模塊、文本特徵提取與處理模塊、綜合調度模塊、 顯示模塊和時鐘模塊;
[0009] 所述聲音接收模塊獲取外界環境聲音並傳遞給所述語音識別模塊以及聲音特徵 提取與處理模塊;所述語音識別模塊對所接收的外界環境聲音利用ASR方法進行候選詞識 另IJ,獲得外界環境聲音中的情感關鍵詞和程度副詞,根據所述時鐘模塊對所述外界環境聲 首中的情感關鍵詞和程度副詞給予相應的時間標籤,獲得包含有關鍵詞時間標籤的情感關 鍵詞和包含有副詞時間標籤的程度副詞一併傳遞給所述文本特徵提取與處理模塊;
[0010] 所述文本特徵提取與處理模塊在所設定的周期T內根據所接收的包含有關鍵詞 時間標籤的情感關鍵詞和包含有副詞時間標籤的程度副詞分別獲得動態情感向量Ε'和動 態程度副詞向量Q' ;並在所設定的周期Τ內統計單位時間內識別到的情感關鍵詞的數量, 從而獲得文本情感關鍵詞語速;所述文本特徵提取與處理模塊根據所設定的文本情感關鍵 詞語速閾值S對所述文本情感關鍵詞語速進行比較,並利用特徵參數表獲得文本情感關鍵 詞語速特徵修正係數L ;由所述動態情感向量Ε'、動態程度副詞向量Q'和文本情感關鍵詞 語速特徵修正係數L構成文本情感標註信息並傳遞給所述綜合調度模塊;
[0011] 所述聲音特徵提取與處理模塊根據所述外界環境聲音進行音量信息統計,獲得音 量序列,對所述音量序列中音量高於所設定音量閾值V的聲音判定為音頻,並根據時鐘模 塊給予所述音頻相應的音頻時間標籤,根據所述音頻時間標籤對在所設定的周期Τ內的音 頻進行FFT變換,從而提取幅值信息;所述聲音特徵提取與處理模塊根據所設定情感音量 閾值Η和情感幅值閾值β分別對在所設定的周期內音頻的音量序列和幅值信息進行判定, 對超出所述情感音量閾值Η和/或情感幅值閾值β的音頻進行標註獲得音頻情感標註信 息並傳遞給綜合調度模塊;
[0012] 所述綜合調度模塊對所接收的文本情感標註信息和音頻情感標註信息進行智能 決策獲得語音情感權值W並傳遞給顯示模塊進行顯示。
[0013] 本發明多模態的非接觸情感分析記錄系統的特點也在於:
[0014] 所述語音識別模塊中利用ASR方法進行候選詞識別是按如下步驟進行:
[0015] 步驟1、在所述語音識別模塊中設置由Ν個待識別的候選詞構成的候選詞列表,所 述候選詞列表包括程度副詞和X種情感關鍵詞;設定每一種情感關鍵詞的個數都為Μ個,則 有(Ν-ΧΧΜ)個程度副詞;設定所述情感關鍵詞分為正向情感關鍵詞與負向情感關鍵詞,所 述正向情感關鍵詞個數與負向情感關鍵詞的個數相同;
[0016] 步驟2、所述語音識別模塊對所述外界環境聲音通過頻譜轉換為文本特徵,對所述 文本特徵匹配所述候選詞列表,從而獲得外界環境聲音中匹配成功的情感關鍵詞和程度副 。
[0017] 在所述綜合調度模塊中設置情感關鍵詞權值表、程度副詞表和特徵參數表;
[0018] 所述情感關鍵詞權值表的表項為(A,a),Α為情感關鍵詞,a為情感關鍵詞權值;所 述表項的總個數為XXM ;所述情感關鍵詞權值分為正向情感關鍵詞權值和負向情感關鍵 詞權值;所述情感關鍵詞權值之和為零;定義所述正向情感關鍵詞用正向情感關鍵詞權值 來表徵;所述負向情感關鍵詞用負向情感關鍵詞權值來表徵;
[0019] 所述程度副詞表的表項為(B,b),B為程度副詞,b為程度副詞的修正係數;所述表 項的總個數為(N-XXM);
[0020] 所述特徵參數表的表項為(G,X,y),G為所述情感音量閾值Η和情感幅值閾值β 和文本情感關鍵詞語速閾值S的集合,X為特徵修正係數集合,y為特徵影響權值集合。 [0021 ] 所述文本情感標註信息按如下步驟獲得:
[0022] 步驟1、初始化一個XXM維的情感向量E(E1,E2,E3,…,E XXM)和一個N-XXM維的 程度副詞向量WQuQdQm···, Qn-xxm) ?
[0023] 步驟2、根據所述情感關鍵詞權值表對包含有關鍵詞時間標籤的情感關鍵詞進行 匹配;對匹配成功的情感關鍵詞獲取相應的情感關鍵詞權值並存入所述情感向量E中,從 而獲得動態情感向量E'(E/,E2',E3',…,EXXM');
[0024] 步驟3、根據所述程度副詞表對包含有副詞時間標籤的程度副詞進行匹配,對匹配 成功的程度副詞獲取相應的程度副詞的修正係數並存入所述程度副詞向量Q中,從而獲得 動態程度副詞向量Q'(Q/,Q 2',Q3',…,Qjhxm');
[0025] 步驟4、若所述文本情感關鍵詞語速超出所述文本情感關鍵詞語速閾值S,則取出 所述特徵參數表中文本情感關鍵詞語速閾值S所對應的特徵修正係數並賦值給文本情感 關鍵詞語速特徵修正係數L,否則文本情感關鍵詞語速特徵修正係數L為初始值。
[0026] 所述音頻情感標註信息按如下步驟獲得:
[0027] 步驟1、定義音頻情感標註信息為數據對F(a,δ)並進行初始化;定義情感音量 數據對Q (Xp 和情感幅值數據對C2 (x2, y2);
[0028] 步驟2、根據所設定情感音量閾值Η、情感幅值閾值β分別對所述音頻的音量序列 和幅值信息進行判定,若所述音量序列中的任意一個音量值與音量序列的平均值之差大於 等於所設定情感音量閾值Η,則取出所述特徵參數表中情感音量閾值Η所對應的特徵修正 係數和特徵影響權值並存入所述情感音量數據對q (Xl,yi)中,否則Q為初始值;
[0029] 步驟3、若所提取幅值信息中的任意一個採樣點幅值絕對值減去所述幅值信息絕 對值的平均值之差大於所述情感幅值閾值β乘以所述幅值信息絕對值的平均值,則取出 所述特徵參數表中情感幅值閾值β所對應的特徵係數和特徵影響權值並存入所述情感幅 值數據對C 2 (x2, y2)中,否則C2為初始值;
[0030] 步驟4、利用式⑴獲得數據對F( α,δ ):
[0031] F(a,δ ) = (ΧιΧχ2, yi+y2) ⑴。
[0032] 所述智能決策按如下步驟進行:
[0033] 步驟1、利用式⑵獲得文本情感量P :
[0034]
【權利要求】
1. 一種基於多模態的非接觸情感分析記錄系統,其特徵是組成包括:聲音接收模塊、 聲音特徵提取與處理模塊、語音識別模塊、文本特徵提取與處理模塊、綜合調度模塊、顯示 模塊和時鐘模塊; 所述聲音接收模塊獲取外界環境聲音並傳遞給所述語音識別模塊以及聲音特徵提取 與處理模塊;所述語音識別模塊對所接收的外界環境聲音利用ASR方法進行候選詞識別, 獲得外界環境聲音中的情感關鍵詞和程度副詞,根據所述時鐘模塊對所述外界環境聲音中 的情感關鍵詞和程度副詞給予相應的時間標籤,獲得包含有關鍵詞時間標籤的情感關鍵詞 和包含有副詞時間標籤的程度副詞一併傳遞給所述文本特徵提取與處理模塊; 所述文本特徵提取與處理模塊在所設定的周期T內根據所接收的包含有關鍵詞時間 標籤的情感關鍵詞和包含有副詞時間標籤的程度副詞分別獲得動態情感向量E'和動態程 度副詞向量Q' ;並在所設定的周期T內統計單位時間內識別到的情感關鍵詞的數量,從而 獲得文本情感關鍵詞語速;所述文本特徵提取與處理模塊根據所設定的文本情感關鍵詞語 速閾值S對所述文本情感關鍵詞語速進行比較,並利用特徵參數表獲得文本情感關鍵詞語 速特徵修正係數L ;由所述動態情感向量E'、動態程度副詞向量Q'和文本情感關鍵詞語速 特徵修正係數L構成文本情感標註信息並傳遞給所述綜合調度模塊; 所述聲音特徵提取與處理模塊根據所述外界環境聲音進行音量信息統計,獲得音量序 列,對所述音量序列中音量高於所設定音量閾值V的聲音判定為音頻,並根據時鐘模塊給 予所述音頻相應的音頻時間標籤,根據所述音頻時間標籤對在所設定的周期T內的音頻進 行FFT變換,從而提取幅值信息;所述聲音特徵提取與處理模塊根據所設定情感音量閾值 Η和情感幅值閾值β分別對在所設定的周期內音頻的音量序列和幅值信息進行判定,對超 出所述情感音量閾值Η和/或情感幅值閾值β的音頻進行標註獲得音頻情感標註信息並 傳遞給綜合調度模塊; 所述綜合調度模塊對所接收的文本情感標註信息和音頻情感標註信息進行智能決策 獲得語音情感權值W並傳遞給顯示模塊進行顯示。
2. 根據權利要求1所述的多模態的非接觸情感分析記錄系統,其特徵是: 所述語音識別模塊中利用ASR方法進行候選詞識別是按如下步驟進行: 步驟1、在所述語音識別模塊中設置由Ν個待識別的候選詞構成的候選詞列表,所述候 選詞列表包括程度副詞和X種情感關鍵詞;設定每一種情感關鍵詞的個數都為Μ個,則有 (Ν-ΧΧΜ)個程度副詞;設定所述情感關鍵詞分為正向情感關鍵詞與負向情感關鍵詞,所述 正向情感關鍵詞個數與負向情感關鍵詞的個數相同; 步驟2、所述語音識別模塊對所述外界環境聲音通過頻譜轉換為文本特徵,對所述文本 特徵匹配所述候選詞列表,從而獲得外界環境聲音中匹配成功的情感關鍵詞和程度副詞。
3. 根據權利要求2所述的多模態的非接觸情感分析記錄系統,其特徵是:在所述綜合 調度模塊中設置情感關鍵詞權值表、程度副詞表和特徵參數表; 所述情感關鍵詞權值表的表項為(A,a),Α為情感關鍵詞,a為情感關鍵詞權值;所述表 項的總個數為XXM ;所述情感關鍵詞權值分為正向情感關鍵詞權值和負向情感關鍵詞權 值;所述情感關鍵詞權值之和為零;定義所述正向情感關鍵詞用正向情感關鍵詞權值來表 徵;所述負向情感關鍵詞用負向情感關鍵詞權值來表徵; 所述程度副詞表的表項為(B,b),B為程度副詞,b為程度副詞的修正係數;所述表項的 總個數為(N-XXM); 所述特徵參數表的表項為(G,x,y),G為所述情感音量閾值Η和情感幅值閾值β和文 本情感關鍵詞語速閾值S的集合,X為特徵修正係數集合,y為特徵影響權值集合。
4. 根據權利要求3所述的多模態的非接觸情感分析記錄系統,其特徵是,所述文本情 感標註信息按如下步驟獲得: 步驟1、初始化一個XXM維的情感向量,…,EXXM)和一個N-XXM維的程度 副詞向量卩他義,%,…,%-^!!); 步驟2、根據所述情感關鍵詞權值表對包含有關鍵詞時間標籤的情感關鍵詞進行匹配; 對匹配成功的情感關鍵詞獲取相應的情感關鍵詞權值並存入所述情感向量E中,從而獲得 動態情感向量 E'(E/,E2',E3',…,EXXM'); 步驟3、根據所述程度副詞表對包含有副詞時間標籤的程度副詞進行匹配,對匹配成功 的程度副詞獲取相應的程度副詞的修正係數並存入所述程度副詞向量Q中,從而獲得動態 程度副詞向量Q'(Q/,Q/,Q/,…,Qmxm'); 步驟4、若所述文本情感關鍵詞語速超出所述文本情感關鍵詞語速閾值S,則取出所述 特徵參數表中文本情感關鍵詞語速閾值S所對應的特徵修正係數並賦值給文本情感關鍵 詞語速特徵修正係數L,否則文本情感關鍵詞語速特徵修正係數L為初始值。
5. 根據權利要求4所述的多模態的非接觸情感分析記錄系統,其特徵是,所述音頻情 感標註信息按如下步驟獲得: 步驟1、定義音頻情感標註信息為數據對F(a,δ)並進行初始化;定義情感音量數據 對Q (Xp yj和情感幅值數據對C2 (x2, y2); 步驟2、根據所設定情感音量閾值Η、情感幅值閾值β分別對所述音頻的音量序列和幅 值信息進行判定,若所述音量序列中的任意一個音量值與音量序列的平均值之差大於等於 所設定情感音量閾值Η,則取出所述特徵參數表中情感音量閾值Η所對應的特徵修正係數 和特徵影響權值並存入所述情感音量數據對Q (Xl,yi)中,否則Q為初始值; 步驟3、若所提取幅值信息中的任意一個採樣點幅值絕對值減去所述幅值信息絕對值 的平均值之差大於所述情感幅值閾值β乘以所述幅值信息絕對值的平均值,則取出所述 特徵參數表中情感幅值閾值β所對應的特徵係數和特徵影響權值並存入所述情感幅值數 據對C 2 (x2, y2)中,否則C2為初始值; 步驟4、利用式(1)獲得數據對F(a,δ): F(a,δ ) = (ΧιΧχ2, yi+y2) ⑴。
6. 根據權利要求5所述的多模態的非接觸情感分析記錄系統,其特徵是:所述智能決 策按如下步驟進行: 步驟1、利用式(2)獲得文本情感量P :
(2) 步驟2、利用式(3)獲得文本程度副詞修正係數K:
(3) 式(3)中,&表示文本程度副詞修正係數K的初始值; 步驟3、利用式(4)獲得文本情感權值Z : Z = PXKXL (4) 步驟4、利用式(5)對所述文本情感權值Z和所述音頻情感標註信息F( α,δ )進行特 徵融合,從而獲得所設定的周期Τ內語音情感權值W : w - ? (ζ^°) " I*? (z=〇) (5)。
【文檔編號】G06F17/27GK104102627SQ201410334275
【公開日】2014年10月15日 申請日期:2014年7月11日 優先權日:2014年7月11日
【發明者】孫曉, 孫重遠, 高飛, 葉嘉麒, 任福繼 申請人:合肥工業大學