一種基於參數融合優化決策的音頻索引方法
2023-12-08 22:57:01
一種基於參數融合優化決策的音頻索引方法
【專利摘要】本發明為一種針對真實場景下的語音數據進行音頻索引的方法,將輸入的語音信號進行預處理和初始化後進行聲學特徵提取,然後分別進行基於高斯混合模型的優化學習及量子學習,將高斯混合模型參數與量子學習參數進行融合,最後基於分類決策給出分類結果,本發明中的量子學習方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。將這種方法擴展為通用分類學習方法,可有效地解決會議場景下多個說話人混合的通用說話人分類問題。
【專利說明】一種基於參數融合優化決策的音頻索引方法
【技術領域】
[0001]本發明屬於音頻【技術領域】,涉及對會議場景下的語音數據進行音頻索引,具體涉及一種基於參數融合優化決策的音頻索引方法。
【背景技術】
[0002]音頻索引是一種從音頻中自動提取信息並進行目標內容搜索的技術,其目的是按一定的方式對海量語音信號進行分析和檢索,提取特定目標信息。在音頻索引中需要獲取信息包括說話內容和說話人身份。音頻索引一般在時域上對音頻信號按來源和分類進行標記索引,其索引內容包括但不限於:說話人身份、說話內容、音樂、背景噪聲及其他內容。音頻索引需要確定出某一說話人與另一說話人之間的切換時刻,並標記出每個語音段對應的說話人身份。音頻索引可應用於電話語音、廣播新聞和語音會議等場景,能夠實現音頻數據的結構化分析、理解和管理。
[0003]會議場景下的音頻索引可視為基於說話人的語音信號自動優化和分離方法,上述音頻索引通常包括三個部分:說話人特徵提取、說話人分段、說話人聚類。
[0004]傳統的說話人特徵包括:MFCC(MelFrequency Cepstral Coefficients)、LFCC (Linear Frequency Cepstral Coefficients)> PLP (Perceptual LinearPredictive)、LPC (Linear Predictive Coding)等感知特徵;最近提出的新的說話人特徵包括:魯棒性較優的同步掩蔽和前向掩蔽感知特徵;基於聽神經放電時間信息的子帶自相關特徵;調頻譜特徵和頻域線性預測特徵;還可以利用漢明窗提取語音信號中若干情感特徵參數。此外還包括如下提取說話人特徵的方法:特徵彎曲(warping)技術將特徵的F1DF包絡改為高斯包絡,可以避免背景噪聲和其他幹擾的影響;通過在聚類之前先將特徵矢量投影到說話人子空間則可以提高說話人特徵的鑑別性;將傳統短時特徵與節律(Prosodic)和其他長時特徵(如基頻、能量、共振峰、長時平均譜等)結合;根據給定的訓練樣本集選擇最優小波包基.從被識別或分類的信號中提取具有最大可分性的特徵。
[0005]基於測度的算法是最常用的說話人分段算法,通過計算兩個聲學段(通常是連續的)之間的距離來決策他們屬於同一說話人或不同說話人,如果屬於不同說話人,則需要判定是否存在說話人變更點。用於進行變更點判定的距離算法也可應用在說話人聚類方面來比較兩個聲學段是否屬於同一說話人。通常用兩類距離來定義一對聲學段的距離,一類是不考慮數據的模型,僅利用足夠多的統計數據進行計算,稱為基於統計的距離,這種方法在聲學段足夠長的時候快速高效,將數據用一個唯一的均值和方差代表;第二類則評估數據與其模型的相似度,該方法計算較慢,但對複雜數據處理效果較好,稱為基於相似度的距離。距離定義包括:貝葉斯信息準則、通用相似度評估、Gish距離。所有基於量度的技術都需要計算一個函數,其極值需要與閾值相比來決定每個變更點的合適度。
[0006]說話人聚類則採用混合高斯模型(Gaussian Mixture Model, GMM)或支持向量機(Support Vector Machine, SVM)來計算,前者需要對說話人模型進行生成訓練,如最大似然或最大後驗估計,後者需要對說話人模型進行差別訓練,目前主流的技術為GMM-SVM,通過GMM建立概率密度分布模型並通過Kul Iback-Leibler散度上界來測量概率密度分布。雖然GMM-SVM系統性能較好,但仍存在GMM參數過多及通用性較差的問題。對於第一個問題,NAP等技術相繼被提出,使得GMM-SVM系統的識別正確率進一步提高,不過在訓練NAP模型時僅考慮了同類集合間的度量,未考慮異類集合間的度量;對於第二個問題,可引入量子學習理論進行處理。.
【發明內容】
[0007]為了克服上述現有技術的不足,本發明的目的在於提供了一種基於參數融合優化決策的音頻索引方法,由高斯混合模型和量子學習模型參數構成。量子學習模型是一種在數據分布中增加量子控制參數的分類算法,主要方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。通過從訓練集中學習並找到一種低誤差分類器,對測試集進行分類決策並進行標記,可以解決多類混合狀態問題。這種方法可用於處理多人多方會議中的音頻索引問題。
[0008]為了實現上述目的,本發明採用的技術方案是:
[0009]一種基於參數融合優化決策的音頻索引方法,包括以下步驟:
[0010]第一步,採用聲傳感器進行系統輸入信號採集;
[0011]第二步,對所採集信 號進行預處理;
[0012]第三步,提取聲學特徵;
[0013]第四步,採用高斯混合模型對聲學特徵建立分類模型;
[0014]第五步,採用量子學習模型對聲學特徵建立分類模型;
[0015]第六步,對上述傳統優化學習和量子學習獲得的模型的參數進行參數融合,得到融合模型分類器;
[0016]第七步,分類決策給出分類結果;
[0017]第八步,系統輸出分類結果,包括全部的語音頻段及其相應的分類信息。
[0018]所述第一步中的聲傳感器包括獨立聲傳感器和便攜設備上的聲傳感器。
[0019]所述第二步中的預處理包括預加重、分幀、加窗以及端點檢測。
[0020]所述第三步中的聲學特徵為Mel頻率倒譜係數或/和線性預測倒譜係數。
[0021]所述第四步中,對聲學特徵建立高斯混合分類模型,對不同說話人的聲學特徵所具有的概率密度函數進行建模,對這些特徵進行聚類,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
[0022]所述第五步中,對聲學特徵建立量子學習分類模型,將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。
[0023]所述第六步中,需要融合的參數由傳統優化學習模型參數和量子學習模型參數構成,通過加權完成參數融合。
[0024]所述參數融合的方法是:在得到高斯混合模型參數後,按照獲得的權重大小將模型分量進行排序W1Sw2...>wn,其中n..., Wfloor(n/2)對應的模型分量構成高權重分量集合H,
W(f100r(n/2)+l),^(floor (n/2)+2) J...J
Wn對應的模型分量構成低權重分量集合L, floor為下取整函數;在得到量子學習模型參數後,按照同樣方法獲得權重,將模型分量按照大小進行排序,構成高權重分量集合H』和低權重分量集合L』,量子學習模型的置信度與訓練數據個數無關;融合模型分類器最終輸出來自高斯混合模型的高權重分量集合H和來自量子學習模型的低權重分量集合L』。
[0025]所述第七步中,分類決策由多個不同的分類器給出各自得分,通過決策級融合完成具有魯棒性優化和最佳分類效果的決策輸出,決策級融合後的分類決策即為分類結果。
[0026] 本發明與現有技術相比,優點在於:
[0027]本發明建立了一種基於高斯混合模型參數及量子學習參數融合優化決策的音頻索引方法,其中量子學習模型是一種在數據分布中增加量子控制參數的分類算法,主要方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。通過從訓練集中學習並找到一種低誤差分類器,對測試集進行分類決策並進行標記,可以解決多類混合狀態問題。通過上述融合分類學習方法的擴展,可有效地解決會議場景下多個說話人混合的通用說話人分類問題。
【專利附圖】
【附圖說明】
[0028]圖1是本發明基於參數融合優化決策的說話人分類流程圖。
【具體實施方式】
[0029]下面結合附圖和實施例對本發明做進一步詳細說明。
[0030]如圖1所示,本發明為一種基於參數融合優化決策的音頻索引方法,包括:
[0031]語音信號輸入步驟101,採用聲傳感器進行系統輸入信號採集,按說話人身份對數據進行分類;包括在多媒體會議中通過聲傳感器採集的全部語音頻信號,有可能除了語音信號之外還包括音樂、環境噪聲等其他信號。其目標在於,在多媒體會議中按說話人身份對數據進行分類,這類多媒體會議包括電話或視頻會議。這些方法和裝置不局限於任何已知的獨立聲傳感器如麥克風等,也可以是任何便攜設備如筆記本電腦或PDA設備上的聲傳感器。
[0032]預處理102,對所採集信號進行預處理,包括預加重、分幀、加窗以及端點檢測等手段。
[0033]信號初始化103,進行噪聲消除和有聲段/無聲段檢測等。
[0034]聲學特徵提取104,提取聲學特徵作為說話人鑑別信息,這些聲學特徵可以為梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficients, MFCC)或線性預測倒譜係數(Linear Frequency Cepstral Coefficients, LPCC)等,此外還存在將多種聲學特徵融合的特徵,這種融合特徵提供了更多鑑別信息,可以進一步提高分類正確率。
[0035]上述的步驟102、103、104共同完成整個特徵提取部分。
[0036]特徵提取步驟完成之後,對不同說話人的聲學特徵所具有的概率密度函數進行建模,構建高斯混合模型105,將每個說話人視作一個類別,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
[0037]其具體方式如下:
[0038]假設訓練數據用N維列向量y = (y0, Yl,…,t表示,其中Ji e y代表第i個訓練數據的特徵矢量,y屬於K個不同的類。定義y對應的標籤為N維矢量X= (x0, X1,-,XnJ' Xi e {O, I...,K-l},Xi e X代表第i個訓練數據對應的標籤,Xi用來表示Xci, X1,…,χΝ_1;定義X由如下公式產生:
【權利要求】
1.一種基於參數融合優化決策的音頻索引方法,其特徵在於:包括以下步驟: 第一步,採用聲傳感器進行系統輸入信號採集; 第二步,對所採集信號進行預處理; 第三步,提取聲學特徵; 第四步,採用高斯混合模型對聲學特徵建立分類模型; 第五步,採用量子學習模型對聲學特徵建立分類模型; 第六步,對上述傳統優化學習和量子學習獲得的模型的參數進行參數融合,得到融合模型分類器; 第七步,分類決策給出分類結果; 第八步,系統輸出分類結果,包括全部的語音頻段及其相應的分類信息。
2.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第一步中的聲傳感器包括獨立聲傳感器和便攜設備上的聲傳感器。
3.根據權利要求1所述 的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第二步中的預處理包括預加重、分幀、加窗以及端點檢測。
4.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第三步中的聲學特徵為梅爾頻率倒譜係數或線性預測倒譜係數。
5.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第四步中,對不同說話人的聲學特徵所具有的概率密度函數進行建模,對這些特徵進行聚類,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
6.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第五步中,對聲學特徵建立量子學習分類模型,將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。
7.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第六步中,需要融合的參數由高斯混合模型模型參數和量子學習模型參數構成,通過加權完成參數融合。
8.根據權利要求7所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述參數融合的方法是:在得到高斯混合模型參數後,按照獲得的權重大小將模型分量進行排序W^W2...〉Wn,其中W1, W2,...,Wj^oor (n/2)對應的1?型分裡構成權重分裡集Π H,W(floor(n/2)+l),^ (floor (n/2) +2) J...J
Wn對應的模型分量構成低權重分量集合L,floor為下取整函數;在得到量子學習模型參數後,按照同樣方法獲得權重,將模型分量按照大小進行排序,構成高權重分量集合H』和低權重分量集合L』,量子學習模型的置信度與訓練數據個數無關;融合模型分類器最終輸出來自高斯混合模型的高權重分量集合H和來自量子學習模型的低權重分量集合L』。
9.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第七步中,分類決策由多個不同的分類器給出各自得分,通過決策級融合完成具有魯棒性優化和最佳分類效果的決策輸出,決策級融合的具體做法是進行線性加權,量子學習模型和高斯混合模型的分類結果對應的權重均為1,融合模型的分類結果對應的權重0〈ω〈1,並輸出線性加權後的分類結果。
【文檔編號】G10L15/08GK103985381SQ201410209057
【公開日】2014年8月13日 申請日期:2014年5月16日 優先權日:2014年5月16日
【發明者】楊毅, 劉加, 孫甲松 申請人:清華大學