新四季網

基於本徵話音的說話者檢驗和說話者識別的製作方法

2023-05-18 20:49:11 2

專利名稱:基於本徵話音的說話者檢驗和說話者識別的製作方法
技術領域:
本發明一般涉及語音技術,並特別涉及用於進行說話者檢驗或說話者識別的系統和方法。
授權問題處於幾乎每一項交易的核心。成百萬的人通過電話進行保密的金融交易,諸如訪問他們的銀行帳戶或使用他們的信用卡。當前實際進行的授權遠非完全安全的。各方面交換認為秘密的信息的某種形式,諸如社會保險號碼,母親未婚前娘家的姓等。顯然,這種信息可能受到侵犯,其結果是偽冒的授權。
本發明的一方面是要通過提供用於進行說話者檢驗的系統和方法解決上述問題。說話者檢驗涉及確定給定的話音是屬於一定說話者(這裡稱為「客戶」)還是冒名頂替者(客戶以外的任何人)。
與說話者檢驗相關的問題是說話者識別問題。說話者識別涉及把給定的話音與一組已知的話音之一匹配。類似於說話者檢驗,說話者識別具有一些有吸引力的應用。例如,說話者識別系統可用於對話音樣本可得的一組說話者發出的話音郵件進行分類。這種功能允許計算機實現的電話系統在計算機屏幕上顯示已經在話音郵件系統上留言的呼叫者的身份。
雖然說話者檢驗和說話者識別的應用實際上是無限的,但迄今進行這兩個任務的解決方法證明是困難的。識別人類語音、特別是從其它說話者鑑別一說話者是一個複雜的問題。由於人類語音是如此產生的,即使是單獨一個詞一個人很少以相同的方式說出兩次。
人類語音是空氣在壓力下從肺臟用力通過聲帶的產物,並受到聲門的調製產生聲波,然後該聲波在由舌頭、頜部、牙齒和嘴唇清晰發音之前,在口腔和鼻腔中共鳴。許多因素影響這些聲音產生機制如何相互作用。例如,通常的感冒就會大大改變鼻腔的共鳴以及聲帶音調的質量。
由於人類產生語音的複雜性和多變性,通過比較新的說話者與先前的記錄語音樣本並不能容易地進行說話者檢驗和說話者識別。為了排除冒名頂替者而採用高相似性閾值,但當他或她患感冒時,可能會排除授權的說話者。另一方面,採用低相似性閾值能夠使系統傾向於作出錯誤的檢驗。
本發明對說話者檢驗和說話者識別使用基於模型的分析方法。對已知的客戶說話者的語音(並在說話者檢驗的情形下還對一個或多個冒名頂替者的語音)構造模型並進行訓練。這些說話者模型一般採用複合參數(諸如隱藏馬爾科夫模型參數)。不是直接使用這些參數,而是把參數連接在一起形成超向量。這些超向量,每個說話者一個,表示整個訓練數據的說話者分布。
對超訓練進行結果為維數降低的線性變換,這產生我們稱為本徵空間的低維空間。這一本徵空間的基向量我們稱為「本徵話音」向量或「本徵向量」。如果需要,能夠通過拋棄某些本徵向量項在維數上進一步降低本徵空間。
然後,在本徵空間中表示出包含訓練數據的每一說話者,或者作為本徵空間中的一個點,或者作為本徵空間中的概率分布。前者精確度稍低,在於這方法把來自每一說話者的語音相對不變地處理。後者反映出每一說話者的語音將隨發音發生變化。
在本徵空間中對每一說話者表示出訓練數據後,系統可用於進行說話者檢驗或說話者識別。
獲得新的說話者數據並用於構造超向量,然後其維數降低並在本徵空間中表示。估計新的說話者數據對本徵空間中先前數據的近似程度,進行說話者檢驗或說話者識別。如果其在本徵空間內的對應點或分布在對該客戶說話者的訓練數據的閾值近似度之內,則確認來自說話者的新的語音。如果其放置在本徵空間中落在比較接近冒名頂替者語音,則系統在進行授權時可能會拒絕新的語音。
說話者識別以類似的方式進行。新的語音數據放置在本徵空間中,並對分布的本徵向量點最接近的訓練說話者進行識別。
估計本徵空間中新的語音數據和訓練數據的近似程度具有數個優點。首先,本徵空間以精確的低維方式表示出每一完整的說話者,不只是選擇每一說話者少量特性。在本徵空間中進行近似程度的計算能夠相當快速地進行,因為與原始說話者模型空間或特徵向量空間中相比,在本徵空間中一般只需對相當少的維數進行處理。而且系統不需要新語音數據每一包含在構造原始訓練數據所使用的每一例子或發音。通過這裡所述的技術,能夠對超向量進行維數降低,拋棄其某些成分。然而這樣產生的分布在本徵空間的點將能非常好地表示說話者。
為了完整地理解本發明、其目的和優點,請參見以下說明及附圖。


圖1表示理解本發明使用的示例性的隱藏馬爾科夫模型(HMM);圖2是表示如何構造本徵空間以實現說話者識別系統的流程圖,其中已知的客戶說話者表示為本徵空間中的一個點;圖3是表示如何構造本徵空間以實現說話者檢驗系統的流程圖,其中客戶說話者和潛在的冒名頂替者按本徵空間中的分布來表示;圖4是表示使用在訓練期間形成的本徵空間可進行說話者識別或說話者檢驗的過程的流程圖;圖5是如何實施極大似然技術的示意圖;圖6是表示如何基於極大似然運算將來自說話者的觀測數據放置到本徵空間中的數據結構圖。
本發明所採用的本徵話音技術將對許多不同的語音模型有效。我們說明與隱藏馬爾科夫模型識別器相關的優選實施例,因為其在當今的語音識別技術中具有普遍性。然而應當理解,本發明能夠使用任何其它類型的基於模型的識別器實現,諸如音素相似性識別器。
為了更好地理解本發明的說話者識別和檢驗技術,對語音識別系統基本的理解是有幫助的。迄今當前大多數語音識別器採用隱藏馬爾科夫模型(HMM)表示語音,這裡將說明HMM技術使讀者熟悉。
隱藏馬爾科夫模型是涉及狀態圖的建模方法。任何語音單元(諸如短語、詞、半詞、音素等)都能夠以包含在該模型中的所有知識源被建模。HMM表示產生離散區間可觀測的輸出序列一種未知的過程,輸出是某些有限的字母表成員(對應於語音單元預定的集合)。這些模型被稱為「隱藏的」,因為產生可觀測輸出的狀態序列是未知的。
如圖1所示,HMM10由狀態集合(S1,S2,…S5)、定義圖1中箭頭所示的某些狀態對之間的轉移的向量以及概率數據集合來表示。特別地,隱藏馬爾科夫模型包括與轉移向量相關的轉移概率集合12以及與每一狀態觀測的輸出相關的向量和輸出概率集合14。對模型從一個狀態到另一狀態按規則間隔、離散區間定時。按時鐘時間,模型可以從其當前狀態變為對其轉移向量存在的任何狀態。如圖所示,轉移可從給定的狀態返回到自身。
轉移概率表示當對模型計時時從一個狀態向另一狀態轉移將發生的似然率。於是如圖1所示,每一轉移與一概率值(0與1之間)相聯繫。處於任意狀態的所有概率之和等於1。舉例來說,在轉移概率表格12中給出了示例性轉移概率值集合。應當理解,在一有效的實施例中,這些值將由訓練數據產生,其限制是處於任意狀態的所有概率之和等於1。
每次進行轉移時,可以把模型設想為發出或輸出其字母表的一個成員。在圖1所示的實施例中,假設基於音素的語音單元。這樣在輸出概率表14中定義的符號對應於標準英語中找到的音素。在每一轉移時發出哪一個字母表成員取決於輸出概率值或訓練期間學習的函數。這樣發出的輸出表示觀測的序列(基於訓練數據),並且每一字母表成員有一被發出的概率。
在對語音建模中,通常實際的作法是把輸出作為與離散字母表符號序列相對的連續向量序列。這需要輸出概率表示為與單個數值相對的連續概率函數。這樣,HMM常常基於包括一個或多個高斯分布的概率函數。當使用多個高斯函數時,如在16處所示,它們一般相加地混合在一起以定義一複合的概率分布。
無論表示為單一高斯函數還是表示為高斯函數的混合,概率分布能夠由多個參數描述。如同轉移概率值(表12)那樣,這些輸出概率參數可能包含浮點數。參數表18標識一般用來基於來自訓練說話者的觀測數據表示概率密度函數(pdf)。由圖1中高斯函數16的方程式所示,要進行建模的觀測向量O的概率密度函數是乘以由高斯密度N的每一混合分量的混合係數的疊代和,其中高斯密度具有平均向量uj,以及從倒譜或濾波器組係數語音參數計算的協方差矩陣Uj。
隱藏馬爾科夫模型識別器實現的細節從一個應用到另一應用可以有很大變化。圖1所示的HMM例子只是要解釋隱藏馬爾科夫模型是如何構造的,並不是作為對本發明範圍的限制。就此而言,有許多各種不同的隱藏馬爾科夫建模概念。正如從以下說明能夠更允分理解那樣,本發明的本徵話音適應技術能夠很好地適用於每一種不同的隱藏馬爾科夫模型變形,以及其它基於參數的語音建模系統。
圖2和3分別表示,使用本發明的技術如何進行說話者識別和說話者檢驗。作為進行說話者識別或說話者檢驗的第一步,要構造本徵空間。要構造的具體的本徵空間與應用有關。在圖2所示的說話者識別的情形下,使用一組已知的客戶說話者20提供對其生成本徵空間的訓練數據22。另一方面,對於如圖3所示的說話者檢驗,從希望對其進行檢驗的客戶說話者21a,以及還從一個或多個潛在的冒名頂替者21b提供訓練數據。對說話者識別和說話者檢驗應用,除了訓練數據源的這一區別外,用於產生本徵空間的過程基本上相同。於是對圖2和3使用了類似的標號。
參照圖2和3,通過對在訓練數據22中表示的每一說話者形成並訓練說話者模型而構造本徵空間。這一步驟示於24,並對每一說話者產生一組模型26。雖然這裡已經解釋隱藏馬爾科夫模型,但是本發明不限於隱藏馬爾科夫模型。而是可使用具有適於連接的參數的任何語音模型。模型26最好使用足夠的訓練數據訓練,使得由模型所定義的所有聲音單元由每一說話者實際的語音至少一個例子訓練。雖然在圖2和3中沒有明顯示出,但模型訓練步驟24能夠包含適當的輔助說話者適應處理,以便加細模型。這種輔助處理的例子包括極大A後驗估計(MAP)及其它基於變換的方法,諸如極大似然線性回歸(MLLR)。生成說話者模型26的目的是要精確地表示訓練數據語料庫,因為這個語料庫要用來定義每一訓練說話者被放置在其中,並對其測試每一新的語音發音的本徵空間的界線和邊界。
在構造模型26之後,在步驟28使用每一說話者的模型構造超向量。30處所示的超向量可通過連接每一說話者模型的參數形成。在使用隱藏馬爾科夫模型時,每一說話者的超向量可組成參數(一般為浮點數)的一有序列表,這些參數對應於該說話者隱藏馬爾科夫模型的至少一部分參數。對應於每一聲音單元的參數包含在給定的說話者超向量中。這些參數可以任何方便的順序組織起來。順序不是重要的;然而一旦採用一種順序,則對所有的訓練說話者必須遵從。
用來構造超向量的模型參數的選擇將取決於計算機系統可用的處理能力。當使用隱藏馬爾科夫模型參數時,我們通過從高斯均值構造超向量而獲得了良好的結果。如果可使用更大的處理能力,超向量還可包括其它的參數,諸如轉移概率(圖1表12),或協方差矩陣參數(圖1參數18)。如果隱藏馬爾科夫模型產生離散輸出(與概率密度相反),則這些輸出值可用來組成超向量。
在構造超向量之後,在步驟32進行維數降低操作。維數降低能夠通過把原來的高維超向量降低為基向量的任何線性變換實現。例子的非窮盡列表包括主成分分析(PCA),獨立成分分析(ICA),線性鑑別分析(LDA),因素分析(FA),單值分解(SVD)。
具體來說,在實現本發明中使用的維數降低技術的分類定義如下。考慮從用於語音識別的說話者相關模型獲得的一組T個訓練超向量。設這些超向量的每一個具有維數V;這樣,我們能夠把每一超向量標記為X=[x1,x2,…,xV]^T(V*1向量)。考慮能夠施加到超向量(即施加到維數V的任何向量)以產生新的維E的向量(E小於或等於訓練超向量數目T);每一變換後的向量可標記為W=[w1,w2,…,wV]^T。以某種方式從T個訓練超向量的組計算M的參數值。
這樣,我們具有線性變換W=M*X。M有維數E*V,且W具有維數E*1,其中E<=T;對於特定的訓練超向量組,M將是固定不變的。可使用幾種維數降低技術從T個訓練超向量的組計算線性變換M,使W具有維數E<=T。
例子包括主成分分析、獨立成分分析、線性鑑別分析、因素分析、單值分解。在輸入向量為從說話者相關建模導出的訓練超向量、並且M用來實施上述技術的具體情形下,可使用任何用於找出這種固定線性變換M的方法(不僅是那些列出的)實現本發明。
在步驟32產生的基向量定義由本徵向量覆蓋的一本徵空間。維數降低對每一訓練的說話者產生一本徵向量。這樣,如果有T個訓練說話者,則維數降低步驟32產生T個本徵向量。這些本徵向量定義了所謂本徵話音空間或本徵空間。
如34處所示,形成本徵話音空間的本徵向量每一表示可通過其區分不同說話者的不同維。原始訓練集中每一超向量可被表示為這些本徵向量的線性組合。本徵向量按它們在對數據建模中的的重要性排序第一本徵向量比第二本徵向量重要,第二本徵向量比第三本徵向量重要等等。至此我們對這一技術的經驗表明,第一本徵向量似乎對應於性別維。
雖然在步驟32產生的極大T個本徵向量,實際上能夠拋棄這些向量的幾個,僅保留前N個本徵向量。這樣在步驟36我們可選地抽取T個本徵向量的N個,在步驟38組成降低的參數本徵空間。較高階的本徵向量可被拋棄,因為它們一般包含用於在說話者之間進行鑑別的次要信息。把本徵話音空間降低到少於訓練說話者總數就提供了本質的數據壓縮,這在以有限的存儲器和處理器資源構造實際系統時能夠有幫助。
在從訓練數據產生了本徵向量之後,在本徵空間中表示出訓練數據中的每一說話者。在說話者識別的情形下,如步驟40a所示及42a處圖示,在本徵空間中表示出每一已知的客戶說話者。在說話者檢驗的情形下,如步驟40b所示及42b處所示,在本徵空間中表示出客戶說話者和潛在的冒名頂替說話者。說話者可以表示為本徵空間中的點(如圖2中42a處所示)或表示為本徵空間中的概率分布(如圖3中42b處所示)。
使用說話者識別或說話者檢驗系統尋求說話者識別或檢驗的用戶在44提供新的語音數據,且如步驟46處所示,這些語音數據用來訓練說話者相關模型。然後在步驟50使用模型48構造超向量52。注意,新的語音數據可能不需要包含每一聲音單元的例子。例如,新的語音發音可能太短而不能包含所有聲音單元的例子。如以下將充分說明的,系統將處理這種情形。
在步驟54對超向量52進行維數降低,其結果是如步驟56所示及58處所示可在本徵空間中表示的新的數據點。在58的圖示中本徵空間(基於訓練說話者)中先前所需的點表示為圓點,而新的語音數據點表示為星號。
把新的數據點放置到本徵空間之後,現在可以估計其對其它先前的數據點逼近程度,或對應於訓練說話者的數據分布。圖4示出說話者識別和說話者檢驗的兩者的一示例性實施例。
對於說話者識別,把新的語音數據指定給本徵空間中最接近的訓練說話者,步驟62圖示在64處。這樣系統將把新的語音標識為其數據點或數據分布在本徵空間中最接近新的語音的先前的訓練說話者的語音。
對於說話者檢驗,系統在步驟66測試新的數據點以確定它是否與本徵空間中客戶說話者處於預定的閾值接近程度。如果新的說話者數據在本徵空間中更為接近冒名頂替者而不是客戶說話者,則作為安全措施在步驟68,系統可以拒絕新的說話者數據。這圖示在69處,其中描繪出對客戶說話者的接近程度和對最接近的冒名頂替者的接近程度。
極大似然本徵空間分解(MLED)技術一個用於把新的說話者放置在本徵空間內的簡單的技術是使用簡單的投影運算。投影運算尋找儘可能接近對應於新的說話者輸入語音本徵空間之外的點的本徵空間內的點。請記住,這些點實際上是從其能夠重新構造一組HMM的超向量。
投影運算是比較粗糙的技術,它不能保證本徵空間內的點對新的說話者最優。此外,投影運算要求對新的說話者超向量包含完整的數據集,以表示對該說話者整個的HMM組。這一要求引起實施上相當大的限制。當使用投影把新的說話者約束到本徵空間時,說話者必須提供足夠的輸入語音,使所有的語音單元能在數據中表示。例如,如果隱藏馬爾科夫模型指定表示英語中所有的音素,則在使用簡單投影技術之前,訓練說話者必須提供所有音素的例子。在許多應用中,這一約束簡直是不實際的。
本發明的極大似然技術要解決簡單投影的上述兩個缺陷。本發明的極大似然技術尋求本徵空間內的一點,該點表示對應於具有產生由新說話者提供的語音的最大概率的一組隱藏馬爾科夫模型的超向量。
簡單的投影運算把所有的超向量成員作為具有同等重要性對待,而最大似然技術是基於從實際適應數據引起的概率的,這樣更可能的數據權重越重。與簡單投影技術不同,即使新的說話者沒有提供完全的訓練數據集合(即對某些聲音單元的數據缺失),極大似然技術仍將有效。實際上,極大似然技術把構造超向量的場合考慮在內,即從涉及一定模型比另外的模型更可能產生由新說話者提供的輸入語音的概率的隱藏馬爾科夫模型進行構造。
實際上,極大似然技術將在本徵空間內選擇與新的說話者輸入語音最一致的超向量,而不論實際上究竟有多少輸入語音可得。為了說明,假設新的說話者是Alabama當地人的年輕女性。在收到來自這一說話者發出的一些音節時,極大似然技術將在本徵空間內選擇表示與說話者的當地Alabama女性口音一致的所有音素(即使那些在輸入語音中還沒有表示的音素)的點。
圖5表示極大似然技術如何工作。來自新說話者的語音輸入用來構造超向量70。如上所述,超向量包括對應於倒譜係數等語音參數的連接列表。在所示的實施例中,這些參數是表示從對應於新說話者的隱藏馬爾科夫模型集合抽取的高斯均值的浮點數。其它的HMM參數也可使用。在圖示中,這些HMM均值作為如72處的圓點所示。當以數據完全分布時,超向量70將對每一HMM均值包含對應於由HMM模型表示的每一聲音單元的浮點數。為了進行說明,這裡假設音素「ah」的參數出現,而音素「iy」的參數缺失。
本徵空間38由本徵向量74、76和78的集合表示。對應於來自新說話者的觀測數據的超向量70可在本徵空間中由每一本徵向量乘以標記為W1,W2,…Wn的對應的本徵值表示。這些本徵值起初是未知的。極大似然技術尋找這些未知本徵值的值。如將以下更充分說明那樣,通過尋找將能在本徵空間中最佳表示新說話者的優化解而選擇這些值。
在使本徵值與對應的本徵空間38的本徵向量相乘並對結果乘積求和之後,產生一個適應模型80。由於輸入語音的超向量(超向量70)可能已有某些缺失的參數值(例如「iy」參數),表示適應模型的超向量80以數值完全分布。此即本發明的一個好處。此外,超向量80中的值表示優化解,即它在本徵空間中具有表示新說話者的極大似然。
各本徵值W1,W2,…Wn可看作為構成極大似然向量,這裡稱為極大似然向量。圖5在82處圖示出向量。如圖示所示,極大似然向量82組成本徵值W1,W2,…Wn的集合。
圖6中示出使用極大似然技術進行適應的過程。來自新說話者組成觀測數據的語音用來構造如100處所示的HMM集合。然後HMM集合102用於構成如104處所示的超向量。如圖所示,超向量106構成從HMM模型102抽取的HMM參數的連接的列表。
使用超向量106,在108構造概率函數Q。當前優選的實施例採用一種概率函數,該函數表示對HMM模型102的預定集合產生被觀測數據的概率。如果函數包含的不只是概率項P,而且還有這項的對數logP,則易於進行概率函數Q的後繼操作。
然後在步驟110通過分別對每一本徵值W1,W2,…Wn取概率函數的導數,得到概率函數最大值。例如,如果本徵空間維數為100,這一系統計算概率函數Q的100個導數,置每一個為零並對各個W求解。雖然這好象是很大的計算量,但是比傳統的MAP或MLLR技術進行一般所需的成千次的計算在計算耗費上要小得多。
這樣獲得的Ws結果集合表示標識本徵空間中對應於極大似然點的點所需的本徵值。這樣,Ws的集合構成本徵空間中極大似然向量。就此而言,每一本徵向量(圖5中的本徵向量74、76和78)定義了一組正交向量或坐標,本徵值乘以該坐標而定義約束在本徵空間內的點。在112示出的這一極大似然向量用來構造對應於本徵空間中最優點(圖4中的點66)的超向量114。然後在步驟116超向量114可用來構造對新說話者的適應模型118。
在本發明的極大似然結構的場合中,我們希望使觀測O=o1…oT的似然關於模型λ最大化。這可通過疊代求輔助函數Q(以下)的最大值進行,其中λ是疊代處的當前模型,而λ^是估計的模型。我們有Q(,^)=statesP(O,|)1o]]>作為最初的逼近,我們可希望只對均值進行最大化。在概率P由HMM集合給出的場合下,我們獲得以下結果Q(,^)=const-12P(O|)statesimSgaussinSmixlMStimetT{m(s)(t)nlog(2)+log|Cm(s)|+h(o1,m,s)}]]>
其中h(o1,m,s)=(o1-m^(s))TCm(s)-1(o1-m^(s))]]>並設Ot為時間t處的特徵向量Cm(s)-1為狀態s的混合高斯逆協方差μ^m(s)為對狀態s的逼近的適應均值,混合分量mγm(s)(t) 為P(使用混合高斯m|λsot)設新說話者的HMM的高斯均值位於本徵空間中。設這一空間是由均值超向量μj覆蓋的空間,j=1…E,(原文P20公式1)
其中μm(s)(j)表示在本徵向量(本徵模型)j的狀態s下混合高斯m的均值向量。
然後我需要^=j=1Ewjj]]>μj為正交的,且Wj是我們的說話者模型的本徵值。這裡我們假設,可對任何新的說話者建模為被觀測的說話者的資料庫的線性組合。然後m^(s)=j=1Ewjm(s)(j)]]>
s是M的混合高斯值中的λ、m的狀態。
由於我們需要使Q最大化,我們只需設定Qwe=0,e=1..E.]]>(注意,因為本徵向量是正交的,故
i≠j..)因而我們有Qwe=0=statesinSgaussinSmixtMStimetT{wem(s)(t)h(o1,s)},e=1..E.]]>計算以上的導數,我們有0=smlrm(s)(t){--m(s)T(e)Cm(s)-1ol+j=1Ewjm(s)T(j)Cm(s)-1m(s)(e)}]]>由此我們求得線性方程式組smlrm(s)(t)m(s)T(e)Cm(s)-1ol=smlrm(s)(t)j=1Ewjm(s)T(j)Cm(s)-1m(s)(e),e=1..E.]]>估計本徵空間中的接近程度當把說話者表示為本徵空間中的點時,能夠使用簡單的幾何距離計算識別哪一個訓練數據說話者最靠近新的說話者。當把說話者表示為本徵空間中的分布時,通過把新的說話者數據作為觀測O並然後通過測試每一分布候選項(表示訓練說話者)估計接近程度,以確定候選項產生觀測數據的概率如何。具有最高概率的候選項被估計為具有最接近的程度。在某些高度安全的應用中,如最可能的候選項具有低於預定閾值的概率,可能希望拒絕認證。這樣可使用一價值函數區分出缺乏高度確定性的候選項。
如以上所述,估計新的說話者對訓練說話者的接近程度可完全在本徵空間內進行。另外,可對更高精確性情形使用貝葉斯估計技術。
為了使用貝葉斯估計強化接近程度的估計,本徵空間內訓練說話者高斯密度乘以正交互補空間中,表示通過維數降低而被拋棄的說話者數據的估計的邊際密度。就此而言,要認識到,對說話者模型進行維數降低的結果是從高維空間向低維空間顯著的數據壓縮。雖然維數降低保留了大部分重要的基向量,但某些拋棄了某些較高階的信息。貝葉斯估計技術估計對應於這一被拋棄信息的邊際高斯密度。
為了說明,假設原始的本徵空間是通過維數降低過程由超向量的線性變換構造的,從而從所有分量較大的數目N中抽取M個分量。較小的所抽取的M個分量表示對應於極大本徵值的變換基的較低維子空間。這樣,本徵空間由分量i=1…M定義,其中拋棄的次要分量對應於i=M+1…N。這兩組分量定義了兩個相互排斥並互補的子空間,主子空間表示有用的本徵空間,而其正交分量表示通過維數降低被拋棄的數據。
我們可以通過以下方程式作為這兩個彼此正交的空間中的高斯密度的乘積計算似然估計P^(x|)=PE(x|)*PE..(x|)]]>在以上方程式中,第一項是本徵空間E中單一高斯密度,而第二項是與本徵空間正交的空間中單一高斯密度。由此得出,只使用到本徵空間的投影和殘值即可從訓練數據向量集合完全估計這兩項。
權利要求
1.用於對預定客戶說話者估計語音的方法,包括對來自多個訓練說話者的語音訓練一組語音模型,多個訓練說話者包括至少一個客戶說話者;通過對所述模型組進行維數降低來構造表示所述多個訓練說話者的本徵空間以產生定義所述本徵空間的一組基向量;把所述客戶說話者表示為所述本徵空間中第一位置;通過對所述輸入數據訓練新的語音模型,並通過對所述新的語音模型進行維數降低,處理新的說話者輸入數據,以產生所述新的說話者作為本徵空間中第二位置的表示;估計所述第一和第二位置之間的接近程度,並使用所述估計作為新的說話者是否為客戶說話者的指示。
2.根據權利要求1的說話者識別方法,其中所述多個訓練說話者包括多個不同的客戶說話者,並且其中所述方法還包括把所述多個客戶說話者每一個表示為所述本徵空間中訓練說話者位置,以及估計所述第二位置和所述訓練說話者位置之間的接近程度,並至少部分地基於所述接近程度的估計,把所述新的說話者識別為所述多個客戶說話者選擇的一個。
3.根據權利要求1的說話者檢驗方法,其中所述多個訓練說話者包括表示為本徵空間中第三位置的至少一個冒名頂替說話者。
4.根據權利要求3的說話者檢驗方法,還包括附加估計所述第二和第三位置之間的接近程度,並使用所述附加估計作為對新的說話者是否為客戶說話者的進一步指示。
5.權利要求1的方法,其中估計接近程度的所述步驟通過確定所述第一和第二位置之間的距離進行。
6.權利要求1的方法,其中所述訓練說話者表示為所述本徵空間中的位置。
7.權利要求1的方法,其中所述訓練說話者表示為所述本徵空間中的點。
8.權利要求1的方法,其中所述訓練說話者表示為所述本徵空間中的分布。
9.權利要求1的方法,其中所述處理新的說話者輸入數據的所述步驟包括使用所述輸入數據產生一概率函數並且使該概率函數極大化以確定位於所述本徵空間內一極大似然向量。
10.權利要求1的方法,其中所述多個訓練說話者包括多個客戶說話者和至少一個冒名頂替說話者。
11.權利要求1的方法,還包括周期地估計所述第一和第二位置之間的接近程度,並使用所述估計作為新的說話者是否為客戶說話者的指示,以確定所述新的說話者身份是否有變化。
全文摘要
對已知的客戶說話者(在說話者檢驗的情形下,還對冒名頂替說話者)構造並訓練語音模型。連接來自這些模型的參數以定義超向量,並對這些超向量作線性變換其結果為維數降低,產生稱為本徵空間的低維空間。然後訓練說話者被表示為本徵空間中的點或分布。此後把來自測試說話者新的語音數據通過類似的線性變換放置在本徵空間中,並且測試說話者對訓練說話者在本徵空間中的接近程度用來鑑別或識別測試說話者。
文檔編號G10L15/06GK1247363SQ99118389
公開日2000年3月15日 申請日期1999年9月3日 優先權日1998年9月4日
發明者羅蘭德·庫恩, 派屈克·貴恩, 吉恩-克勞德·瓊克瓦, 羅伯特·博曼 申請人:松下電器產業株式會社

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀