新四季網

一種基於參數融合優化決策的音頻索引方法

2023-12-08 22:57:01

一種基於參數融合優化決策的音頻索引方法
【專利摘要】本發明為一種針對真實場景下的語音數據進行音頻索引的方法,將輸入的語音信號進行預處理和初始化後進行聲學特徵提取,然後分別進行基於高斯混合模型的優化學習及量子學習,將高斯混合模型參數與量子學習參數進行融合,最後基於分類決策給出分類結果,本發明中的量子學習方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。將這種方法擴展為通用分類學習方法,可有效地解決會議場景下多個說話人混合的通用說話人分類問題。
【專利說明】一種基於參數融合優化決策的音頻索引方法
【技術領域】
[0001]本發明屬於音頻【技術領域】,涉及對會議場景下的語音數據進行音頻索引,具體涉及一種基於參數融合優化決策的音頻索引方法。
【背景技術】
[0002]音頻索引是一種從音頻中自動提取信息並進行目標內容搜索的技術,其目的是按一定的方式對海量語音信號進行分析和檢索,提取特定目標信息。在音頻索引中需要獲取信息包括說話內容和說話人身份。音頻索引一般在時域上對音頻信號按來源和分類進行標記索引,其索引內容包括但不限於:說話人身份、說話內容、音樂、背景噪聲及其他內容。音頻索引需要確定出某一說話人與另一說話人之間的切換時刻,並標記出每個語音段對應的說話人身份。音頻索引可應用於電話語音、廣播新聞和語音會議等場景,能夠實現音頻數據的結構化分析、理解和管理。
[0003]會議場景下的音頻索引可視為基於說話人的語音信號自動優化和分離方法,上述音頻索引通常包括三個部分:說話人特徵提取、說話人分段、說話人聚類。
[0004]傳統的說話人特徵包括:MFCC(MelFrequency Cepstral Coefficients)、LFCC (Linear Frequency Cepstral Coefficients)> PLP (Perceptual LinearPredictive)、LPC (Linear Predictive Coding)等感知特徵;最近提出的新的說話人特徵包括:魯棒性較優的同步掩蔽和前向掩蔽感知特徵;基於聽神經放電時間信息的子帶自相關特徵;調頻譜特徵和頻域線性預測特徵;還可以利用漢明窗提取語音信號中若干情感特徵參數。此外還包括如下提取說話人特徵的方法:特徵彎曲(warping)技術將特徵的F1DF包絡改為高斯包絡,可以避免背景噪聲和其他幹擾的影響;通過在聚類之前先將特徵矢量投影到說話人子空間則可以提高說話人特徵的鑑別性;將傳統短時特徵與節律(Prosodic)和其他長時特徵(如基頻、能量、共振峰、長時平均譜等)結合;根據給定的訓練樣本集選擇最優小波包基.從被識別或分類的信號中提取具有最大可分性的特徵。
[0005]基於測度的算法是最常用的說話人分段算法,通過計算兩個聲學段(通常是連續的)之間的距離來決策他們屬於同一說話人或不同說話人,如果屬於不同說話人,則需要判定是否存在說話人變更點。用於進行變更點判定的距離算法也可應用在說話人聚類方面來比較兩個聲學段是否屬於同一說話人。通常用兩類距離來定義一對聲學段的距離,一類是不考慮數據的模型,僅利用足夠多的統計數據進行計算,稱為基於統計的距離,這種方法在聲學段足夠長的時候快速高效,將數據用一個唯一的均值和方差代表;第二類則評估數據與其模型的相似度,該方法計算較慢,但對複雜數據處理效果較好,稱為基於相似度的距離。距離定義包括:貝葉斯信息準則、通用相似度評估、Gish距離。所有基於量度的技術都需要計算一個函數,其極值需要與閾值相比來決定每個變更點的合適度。
[0006]說話人聚類則採用混合高斯模型(Gaussian Mixture Model, GMM)或支持向量機(Support Vector Machine, SVM)來計算,前者需要對說話人模型進行生成訓練,如最大似然或最大後驗估計,後者需要對說話人模型進行差別訓練,目前主流的技術為GMM-SVM,通過GMM建立概率密度分布模型並通過Kul Iback-Leibler散度上界來測量概率密度分布。雖然GMM-SVM系統性能較好,但仍存在GMM參數過多及通用性較差的問題。對於第一個問題,NAP等技術相繼被提出,使得GMM-SVM系統的識別正確率進一步提高,不過在訓練NAP模型時僅考慮了同類集合間的度量,未考慮異類集合間的度量;對於第二個問題,可引入量子學習理論進行處理。.
【發明內容】

[0007]為了克服上述現有技術的不足,本發明的目的在於提供了一種基於參數融合優化決策的音頻索引方法,由高斯混合模型和量子學習模型參數構成。量子學習模型是一種在數據分布中增加量子控制參數的分類算法,主要方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。通過從訓練集中學習並找到一種低誤差分類器,對測試集進行分類決策並進行標記,可以解決多類混合狀態問題。這種方法可用於處理多人多方會議中的音頻索引問題。
[0008]為了實現上述目的,本發明採用的技術方案是:
[0009]一種基於參數融合優化決策的音頻索引方法,包括以下步驟:
[0010]第一步,採用聲傳感器進行系統輸入信號採集;
[0011]第二步,對所採集信 號進行預處理;
[0012]第三步,提取聲學特徵;
[0013]第四步,採用高斯混合模型對聲學特徵建立分類模型;
[0014]第五步,採用量子學習模型對聲學特徵建立分類模型;
[0015]第六步,對上述傳統優化學習和量子學習獲得的模型的參數進行參數融合,得到融合模型分類器;
[0016]第七步,分類決策給出分類結果;
[0017]第八步,系統輸出分類結果,包括全部的語音頻段及其相應的分類信息。
[0018]所述第一步中的聲傳感器包括獨立聲傳感器和便攜設備上的聲傳感器。
[0019]所述第二步中的預處理包括預加重、分幀、加窗以及端點檢測。
[0020]所述第三步中的聲學特徵為Mel頻率倒譜係數或/和線性預測倒譜係數。
[0021]所述第四步中,對聲學特徵建立高斯混合分類模型,對不同說話人的聲學特徵所具有的概率密度函數進行建模,對這些特徵進行聚類,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
[0022]所述第五步中,對聲學特徵建立量子學習分類模型,將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。
[0023]所述第六步中,需要融合的參數由傳統優化學習模型參數和量子學習模型參數構成,通過加權完成參數融合。
[0024]所述參數融合的方法是:在得到高斯混合模型參數後,按照獲得的權重大小將模型分量進行排序W1Sw2...>wn,其中n..., Wfloor(n/2)對應的模型分量構成高權重分量集合H,
W(f100r(n/2)+l),^(floor (n/2)+2) J...J

Wn對應的模型分量構成低權重分量集合L, floor為下取整函數;在得到量子學習模型參數後,按照同樣方法獲得權重,將模型分量按照大小進行排序,構成高權重分量集合H』和低權重分量集合L』,量子學習模型的置信度與訓練數據個數無關;融合模型分類器最終輸出來自高斯混合模型的高權重分量集合H和來自量子學習模型的低權重分量集合L』。
[0025]所述第七步中,分類決策由多個不同的分類器給出各自得分,通過決策級融合完成具有魯棒性優化和最佳分類效果的決策輸出,決策級融合後的分類決策即為分類結果。
[0026] 本發明與現有技術相比,優點在於:
[0027]本發明建立了一種基於高斯混合模型參數及量子學習參數融合優化決策的音頻索引方法,其中量子學習模型是一種在數據分布中增加量子控制參數的分類算法,主要方法是將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。通過從訓練集中學習並找到一種低誤差分類器,對測試集進行分類決策並進行標記,可以解決多類混合狀態問題。通過上述融合分類學習方法的擴展,可有效地解決會議場景下多個說話人混合的通用說話人分類問題。
【專利附圖】

【附圖說明】
[0028]圖1是本發明基於參數融合優化決策的說話人分類流程圖。
【具體實施方式】
[0029]下面結合附圖和實施例對本發明做進一步詳細說明。
[0030]如圖1所示,本發明為一種基於參數融合優化決策的音頻索引方法,包括:
[0031]語音信號輸入步驟101,採用聲傳感器進行系統輸入信號採集,按說話人身份對數據進行分類;包括在多媒體會議中通過聲傳感器採集的全部語音頻信號,有可能除了語音信號之外還包括音樂、環境噪聲等其他信號。其目標在於,在多媒體會議中按說話人身份對數據進行分類,這類多媒體會議包括電話或視頻會議。這些方法和裝置不局限於任何已知的獨立聲傳感器如麥克風等,也可以是任何便攜設備如筆記本電腦或PDA設備上的聲傳感器。
[0032]預處理102,對所採集信號進行預處理,包括預加重、分幀、加窗以及端點檢測等手段。
[0033]信號初始化103,進行噪聲消除和有聲段/無聲段檢測等。
[0034]聲學特徵提取104,提取聲學特徵作為說話人鑑別信息,這些聲學特徵可以為梅爾頻率倒譜係數(Mel Frequency Cepstral Coefficients, MFCC)或線性預測倒譜係數(Linear Frequency Cepstral Coefficients, LPCC)等,此外還存在將多種聲學特徵融合的特徵,這種融合特徵提供了更多鑑別信息,可以進一步提高分類正確率。
[0035]上述的步驟102、103、104共同完成整個特徵提取部分。
[0036]特徵提取步驟完成之後,對不同說話人的聲學特徵所具有的概率密度函數進行建模,構建高斯混合模型105,將每個說話人視作一個類別,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
[0037]其具體方式如下:
[0038]假設訓練數據用N維列向量y = (y0, Yl,…,t表示,其中Ji e y代表第i個訓練數據的特徵矢量,y屬於K個不同的類。定義y對應的標籤為N維矢量X= (x0, X1,-,XnJ' Xi e {O, I...,K-l},Xi e X代表第i個訓練數據對應的標籤,Xi用來表示Xci, X1,…,χΝ_1;定義X由如下公式產生:
【權利要求】
1.一種基於參數融合優化決策的音頻索引方法,其特徵在於:包括以下步驟: 第一步,採用聲傳感器進行系統輸入信號採集; 第二步,對所採集信號進行預處理; 第三步,提取聲學特徵; 第四步,採用高斯混合模型對聲學特徵建立分類模型; 第五步,採用量子學習模型對聲學特徵建立分類模型; 第六步,對上述傳統優化學習和量子學習獲得的模型的參數進行參數融合,得到融合模型分類器; 第七步,分類決策給出分類結果; 第八步,系統輸出分類結果,包括全部的語音頻段及其相應的分類信息。
2.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第一步中的聲傳感器包括獨立聲傳感器和便攜設備上的聲傳感器。
3.根據權利要求1所述 的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第二步中的預處理包括預加重、分幀、加窗以及端點檢測。
4.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第三步中的聲學特徵為梅爾頻率倒譜係數或線性預測倒譜係數。
5.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第四步中,對不同說話人的聲學特徵所具有的概率密度函數進行建模,對這些特徵進行聚類,用高斯分布函數來分別描述每個類,將這些類作為訓練模板,隨後將觀測序列代入模板,找到最大後驗概率。
6.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第五步中,對聲學特徵建立量子學習分類模型,將常規類別進行線性疊加來構建量子態,並將量子態作為計算模型的狀態。
7.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第六步中,需要融合的參數由高斯混合模型模型參數和量子學習模型參數構成,通過加權完成參數融合。
8.根據權利要求7所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述參數融合的方法是:在得到高斯混合模型參數後,按照獲得的權重大小將模型分量進行排序W^W2...〉Wn,其中W1, W2,...,Wj^oor (n/2)對應的1?型分裡構成權重分裡集Π H,W(floor(n/2)+l),^ (floor (n/2) +2) J...J
Wn對應的模型分量構成低權重分量集合L,floor為下取整函數;在得到量子學習模型參數後,按照同樣方法獲得權重,將模型分量按照大小進行排序,構成高權重分量集合H』和低權重分量集合L』,量子學習模型的置信度與訓練數據個數無關;融合模型分類器最終輸出來自高斯混合模型的高權重分量集合H和來自量子學習模型的低權重分量集合L』。
9.根據權利要求1所述的基於參數融合優化決策的音頻索引方法,其特徵在於:所述第七步中,分類決策由多個不同的分類器給出各自得分,通過決策級融合完成具有魯棒性優化和最佳分類效果的決策輸出,決策級融合的具體做法是進行線性加權,量子學習模型和高斯混合模型的分類結果對應的權重均為1,融合模型的分類結果對應的權重0〈ω〈1,並輸出線性加權後的分類結果。
【文檔編號】G10L15/08GK103985381SQ201410209057
【公開日】2014年8月13日 申請日期:2014年5月16日 優先權日:2014年5月16日
【發明者】楊毅, 劉加, 孫甲松 申請人:清華大學

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀