適應說話人無關語音識別資料庫的方法和系統的製作方法
2023-05-19 08:23:06 4
專利名稱:適應說話人無關語音識別資料庫的方法和系統的製作方法
技術領域:
本發明一般涉及語音識別系統。本發明具體用於,但不必限定於,嵌入到掌上設備中的語音識別系統。
背景技術:
很多語音識別系統通過對輸入語音和存儲在資料庫中的聲學模型進行比較完成識別。隨後把匹配的聲學模型與詞典資料庫中的條目進行比較來完成詞和句子的識別。所述聲學模型通常包括隱含馬爾可夫模型(HMM)。HMM是一種統計描述,包括用來描述諸如詞彙和音素等語音單元的均值和方差向量。隨後用HMM模式匹配確定語音識別資料庫中的聲音模型是否與輸入語音相符。HMM一般基於多個複雜高斯概率密度函數(PDF)所組成的概率函數,也稱為高斯混合(Gaussian mixture)。因此一般來說HMM模式匹配都是匹配高斯混合的過程。
語音識別系統一般按照說話人無關(speaker-independent)和說話人相關(speaker-dependent)分類。設計說話人無關系統用來識別大量說話人的語音;而訓練說話人相關系統用來識別一個或者很少數量說話人的語音。說話人無關系統一般包括聲學資料庫,該資料庫包括從大量訓練說話人得到的HMM。希望使用從訓練說話人的語音得到的HMM來表徵大量說話人中所能找到的語音模型。由於在語音模型中必須做出一些折中來適應非常多樣的語音特徵,也由於不可能調節一個說話人無關系統來識別任何使用該系統的特定人的特殊語音特徵,這樣的系統一般都不如說話人相關系統準確。
調節說話人相關的系統,用來識別個體說話者的特定語音模式。通常,在訓練階段,說話人將向系統中讀入包括多種語音模式在內的文字材料。然後按照文字材料校準訓練語音,使得系統可調節到特定的說話人語音屬性,由此在語音識別當中,系統可以更加準確地識別說話人的聲音。但是在有大量人需要應用語音識別系統的情況下,說話人相關的系統通常並不理想。例如,語音識別系統可能被嵌入到行動電話當中,使用戶能夠通過語音的方法輸入、其後將被電話識別的文字信息或電話號碼。行動電話的主要用戶可能希望大量的朋友、同事和家人同樣能夠使用電話的語音識別功能。由於這樣的電話的第二用戶可能只是在很短的時間內需要語音識別功能,因此要求第二用戶在使用語音識別功能之前對電話進行初次訓練使電話能夠識別他或她的語音是不方便的。不過,行動電話的主要用戶一般更傾向於能夠訓練電話來更準確地識別他或她的語音。
某些現有技術的語音識別系統也可以兼容說話人相關和說話人無關系統。通常這樣的系統進行在線說話人適應,也就是說在正常使用過程中,將說話人無關的聲學模型調整成特定人的語音特徵。在線說話人適應與離線說話人適應(例如上述的說話人相關系統的訓練過程)形成對比,在離線說話人適應中,用戶通過朗讀一個預先定義好的文字材料到系統中,使系統通過訓練能夠識別他或她的聲音。
然而,在上述嵌入到行動電話的語音識別系統的例子當中,由於第二用戶可能只是在很短時間內使用電話的語音識別功能,例如朗讀一個單獨的短文信息,因此在線說話人適應通常可能是無效的。這種情況下,在識別任務沒有完成之前,在線說話人適應過程可能沒有時間得到收斂。因此,當被第二用戶使用的時候,行動電話的語音識別系統將保持說話人無關系統所固有的不準確性。同時,與行動電話相關聯的噪聲背景環境(例如交通和人群噪聲)經常也,使得在線說話人適應過程很難得到收斂。
因此需要一個改進的方法和系統來調整說話人無關語音識別的資料庫使它同時適用於說話人無關和說話人相關系統。
發明內容
從一方面說,本發明是一種生成能夠同時適用於說話人相關和說話人無關的語音識別聲學模板資料庫的方法,該方法包括如下步驟從第一說話人接收訓練語音波形;把所述訓練語音波形分割成對應於隱含馬爾可夫模型(HMM)的狀態的塊;為所述的每個HMM狀態計算對應於所述第一說話人的說話人相關的高斯概率密度函數(PDF);對說話人無關聲學模板資料庫中的每個所述HMM狀態,用所述說話人相關PDF替換說話人無關PDF,其中所述的說話人無關聲學模板資料庫中包括多個說話人無關HMM,每個HMM包含多個高斯PDF,每個PDF都有一個原始的權重係數;和在所述說話人無關的聲學模板資料庫中為每個所述說話人無關和說話人相關PDF計算新的權重係數。
對每個所述狀態,用所述說話人相關PDF替換說話人無關PDF的步驟可對每個所述狀態的具有最小原始權重係數的說話人無關PDF進行替換。
本方法可進一步包括對通過將所述訓練語音波形轉化成MFCC特徵文件而對所述訓練語音波形進行前期(front-end)信號處理的步驟。
本方法可進一步包括如下步驟從第二說話人接收訓練語音波形;和對說話人無關聲學模板資料庫中的每個所述狀態,用對應於所述第二說話人的說話人相關PDF替換說話人無關PDF。
用對應於所述第二說話人的說話人相關PDF替換說話人無關PDF的步驟可對每個狀態的具有第二小原始權重係數的說話人無關PDF進行替換。
本方法可進一步包括如下步驟從多個說話人接收訓練語音波形;和對每個所述的HMM狀態,用對應於所述多個說話人中每個說話人的說話人相關PDF替換說話人無關PDF。
每個所述PDF可包括一個均值向量(μ)和一個協方差矩陣(Σ),所述均值向量可以按照如下公式計算k(i)=k(i)N,]]>這裡N是與某狀態級別對準的特徵向量的個數;和協方差矩陣可以按照如下公式計算k(i,j)=k(i,j)N-k(i)k(j),]]>這裡i和j表示維數下標,k表示HMM狀態。
新的權重係數(Wi)可以按照如下公式計算Wi=wiw1+w2+...+awn,]]>這裡wi是原始權重係數,wn是最小權重係數,a是常數,並且其中一個狀態級別中的所有權重係數之和為1。
將所述訓練語音波形分割成不同狀態的步驟包括對所述訓練語音波形文件應用狀態級強制對準(force alignment)操作。
從另外一個方面來說,本發明是一種用於調整語音識別資料庫的系統,該系統包括微處理器;與所述微處理器有效相連、用於從第一說話人接收訓練語音波形的麥克風;與所述微處理器有效相連的可編程存儲器,所述可編程存儲器包括說話人無關聲學模板資料庫;與所述微處理器有效相連的只讀存儲器(ROM);所述微處理器可以有效地執行所述ROM中的可執行代碼,從而把所述訓練語音波形分割成對應於隱含馬爾可夫模型(HMM)的狀態的塊;為每個所述HMM狀態計算對應於所述第一說話人的說話人相關的高斯概率密度函數(PDF);對所述說話人無關的聲學模板資料庫中的每個所述HMM狀態,用所述說話人相關PDF替換說話人無關PDF,其中所述說話人無關聲學模板資料庫包括多個說話人無關HMM,在每個HMM中包括多個高斯PDF,每個PDF都具有原始的權重係數;和在所述說話人無關的聲學模板資料庫中為每個所述說話人無關和說話人相關PDF重新計算權重係數。
所述微處理器還可通過將所述訓練語音波形轉換為MFCC特徵文件有效地對所述訓練語音波形進行前期信號處理的操作。
所述微處理器可進一步有效地從第二說話人接收訓練語音波形;和對說話人無關聲學模版資料庫中的每個所述狀態,用對應於所述第二說話人的說話人相關PDF替換說話人無關PDF的操作。
所述微處理器可進一步有效地從多個說話人接收訓練語音波形;和對每一個所述HMM狀態,用對應於多個說話人中的每一個說話人的說話人相關PDF替換說話人無關PDF的操作。
在本說明書以及權利要求書中,術語「包括(comprises、comprising)」以及類似術語的含義是指非排他性的包括,因此包括一系列組件的方法或裝置,其不僅包括那些已單獨列出的組件,還可能很好地包括那些沒有列出的其它組件。
為了使本發明易於理解並付諸實施,現在將結合附圖來參考引用優選實施例,其中相似的引用數字指代類似的組件,在附圖中圖1為說明根據本發明的實施例、用於生成一個同時適應於說話人相關和說話人無關語音識別的語音識別聲學模板資料庫的方法的流程圖。
圖2為說明根據本發明的實施例、計算均值向量和協方差矩陣的方法的流程圖,該方法不需要把屬於某個HMM狀態的所有特徵向量首先加載入RAM。
圖3為說明本發明的一個實施例對說話人無關聲學模板資料庫的影響的高斯PDF的曲線圖。
圖4為說明本發明對高斯混合的影響的圖;和圖5為說明一種行動電話形式的系統(諸如可用來實現本發明的
具體實施例方式
參看圖1,示出了根據本發明一個實施例、用於生成一個同時適應於說話人相關和說話人無關語音識別的語音識別聲學模板資料庫的方法100的流程圖。首先,在步驟105,接收訓練語音波形。之後,在步驟110,對所接收的波形進行前期信號處理。然後,在步驟115將信號波形分成對應於隱含馬爾可夫模型的狀態的塊。在步驟120對每個HMM狀態計算說話人相關的高斯概率分布函數(PDF)。然後,在步驟125,對每個HMM狀態,用說話人相關PDF替代說話人無關聲學模板資料庫130中的說話人無關PDF。最後,在步驟135,為每個說話人無關和說話人相關PDF計算新的權重係數。因此,新的係數和說話人相關PDF提供了一個改進的說話人無關聲學模板資料庫140,該資料庫可以適用於說話人相關語音識別。
上述方法100可以被結合到各種類型的說話人無關語音識別系統中。方法100特別的應用於結合進語音識別功能的掌上設備當中,例如行動電話或者個人數字助理(PDA)。由於在此類設備相關的應用環境下,例如在大量用戶在短時間內需要聲音識別功能的情況下,方法100提高了語音識別的正確率,所以方法100可以有效地應用於掌上設備當中。同時,根據某些實施例,方法100包含高效率的算法,使得處理器負荷較輕,這樣節省了掌上設備有限的能量、存儲器和處理器資源。在下邊將對方法100進行更加詳細的描述。
首先,在步驟105,當第一說話人向掌上設備的麥克風讀入預先定義的文字材料中的詞彙或者語音片斷的時候,訓練語音波形就可以包括該第一說話人提供的發音。預先定義的文字材料最好包括一個大範圍的語音樣本使得語音識別系統可以通過得到很好的訓練來更好地識別第一說話人的聲音。第一說話人一般來說是語音識別系統的主要使用人,他/她更傾向於調整系統適合他/她的語音從而提高系統的識別率,也就是說使系統調整為說話人相關的情況。在本技術領域中,使用語音識別訓練文字材料的方法是公知的,因此該文字材料的細節就不在這裡提供了。
在步驟110,對接收的訓練語音波形進行前期處理,把它們從波形轉化成為特徵文件。這樣特徵文件的例子包括Mel-頻率倒譜係數(MFCC)特徵文件。
接著,在步驟115,將轉換之後的訓練語音波形分成對應於HMM的狀態的塊。分塊步驟115是訓練文字材料的語音成分(例如詞彙和音素)與MFCC特徵文件強制對準的操作。強制對準操作在語音識別技術領域也是公知的,因此更詳細的細節就不在這裡提供了。
每個HMM狀態代表了一個訓練語音波形的片斷,同時在語音識別系統中組成了用來將輸入語音與單詞進行匹配的基本建模單元。每個HMM狀態包括大量高斯PDF。每個狀態擁有的大量PDF幫助說話人無關語音識別系統在大量說話人的多樣的詞彙發音和語音特質情況下得到更好的識別。多PDF形成了PDF的高斯混合併且從代表不同說話人的大量訓練樣本中通過估計得出。
一個混合高斯函數可以根據下面的公式定義f(x)=i=1Nwig(x,i,i)]]>(公式1)這裡g(x,μi,Σi)是高斯PDF,μi是均值向量,Σi是協方差矩陣,x是隨機d維的語音特徵向量,wi是權重係數,N是高斯混合中高斯分布的個數。
方法100中的步驟120,對每個HMM狀態計算說話人相關PDF。訓練語音波形根據HMM狀態進行對準之後,所有屬於某個HMM狀態的特徵向量被聚類,並從特徵向量估計單一高斯PDF,N(μ,Σ)。因此,單一高斯函數可以用來代表屬於每個HMM狀態的所有特徵向量參數。例如,對於所有與HMM狀態k對準的特徵向量k=ON,]]>且 (公式2)k=[(O-k)(O-k)]N]]>(公式3)所有O訓練波形與HMM狀態k對準,N是與HMM狀態對準的所有特徵向量的個數。
為了在實際的語音識別系統中應用上述公式2和3,只有把所有屬於狀態k的特徵向量都讀入到隨機存取存儲器(RAM)才能計算得到均值向量μk和協方差矩陣Σk。然而,對於嵌入到掌上設備的語音識別系統,可能沒有足夠的RAM來進行這樣的計算。因此,根據本發明的一個實施例,為了減少空間複雜度,下面的方法200可以被應用來計算均值向量和協方差矩陣。參照圖2描述了用於計算均值向量和協方差矩陣的方法200的流程圖,該方法不需要把屬於某個HMM狀態的所有特徵向量首先讀入存儲器。首先,步驟205是初始化步驟,在這裡μk和Σk都被置零。然後,在步驟210,對於每個屬於HMM狀態k的訓練波形O,設置μk(i)=μk(i)+O,且 (公式4)Σk(i,j)=Σk(i,j)+O(i)·O(j) (公式5)在這裡i和j表示維數下標。在步驟215,對所有HMM狀態k,設置k(i)=k(i)N]]>(公式6)最後,在步驟220,對所有HMM狀態k,設置
k(i,j)=k(i,j)N-k(i)k(j)]]>(公式7)再次參照圖1,方法100繼續到步驟125,在這裡對每個HMM狀態,用說話人相關PDF替代說話人無關PDF。上述的強制對準操作確保了對說話人相關訓練波形建模的HMM狀態個數和對說話人無關建模的HMM狀態個數相同,這也使得上述的替換操作成為可能。被替換的說話人無關PDF從說話人無關聲學模板資料庫130中獲得。對每個狀態,特定的說話人無關PDF應該按照下述的方法進行替換。
再次參看公式1,權重係數wi用來估計訓練波形中第i個PDF與給出的輸入到語音識別系統中的語音波形片斷相一致的概率。權重係數wi在一個說話人無關語音識別系統中是非常重要的,因為它表示了落在第i個PDF的訓練波形的比例。一個大的wi表示很多數量的訓練波形屬於第i個高斯分布,同時一個小的wi表示只有很少數量的訓練波形屬於第i個高斯分布。為此在方法100的步驟125中,通常更傾向於替換被賦予較小wi的說話人無關PDF。統計上,這樣將帶來最小的關於說話人無關語音識別的性能退化,在下邊將會進行更加詳細的描述。
最後,方法100在步驟135終止,為每個說話人無關和說話人相關PDF計算新的權重係數。因為被替換的說話人無關高斯PDF被賦予最小的原始權重係數,所以作為替換的說話人相關高斯PDFs需要被賦予新的權重係數wi以獲得滿意的適應性能。假設在某個狀態下的所有權重係數wi之和等於1,每個狀態下每個高斯PDF的所有權重係數wi可以被重新計算如下。假設某狀態下,初始的n個高斯PDF為P1,P2,...,Pn;並且對應的原始權重係數是w1,w2,...,wn,在這裡wn是最小的原始權重係數。用新估計的說話人相關PDF替換Pn之後,用常數α與wn相乘。這個常數α與給定的語音識別用戶就是在步驟105中朗讀訓練語音波形的說話人的可能程度有關。每個PDF的新權重係數Wi可以用下邊的公式計算
Wi=wiw1+w2+...+awn]]>(公式8)因此,新權重係數wi可以形成適應說話人相關語音識別的修改後的說話人無關資料庫140。也就是說修改後的說話人無關資料庫140仍然可以使相應的語音識別系統作為說話人無關系統而起作用;然而資料庫140現在同時也可以使相應的語音識別系統作為說話人相關識別而起作用,並且擁有更高的準確率。
參照圖3,是用來描述本發明的一個實施例對說話人無關聲學模板資料庫130上的高斯PDF的曲線圖。圖3示出了根據本發明的處理方法對資料庫130進行調整前後的高斯PDF比較。圖3中示出了十個高斯混合的PDFs。較小的、低幅度的PDF曲線示出了每個混合元素的權重分布。假設PDF 305擁有最小的權重係數,根據方法100中的步驟125,用PDF 310對它進行替換。較大的、高幅度的PDF曲線示出了應用替換步驟125之後整體PDF分布上的效果。注意到替換步驟125隻對整體PDF分布產生了很小的影響。替換前的曲線315僅僅向左偏移一點就可以得到變換後的曲線320。
與圖3相關的實際效果是,根據本發明改進的說話人無關語音識別系統的性能只有很小的退化。反過來,對於訓練系統的說話人,系統的性能有了極大的提高。
參照圖4,提供了本發明對高斯混合德影響的另一個圖示。在圖4箭頭左側是六個橢圓的集合,每個橢圓表示一個高斯PDF。假設每個橢圓的大小對應其權重係數。一個大的橢圓表示該PDF擁有比較大的權重係數。這樣,黑色橢圓405表示了最小權重的高斯PDF。圖4箭頭右側表示根據上述的方法100把最小權重高斯PDF替換為說話人相關高斯PDF之後的相同的高斯混合。圖4右側的垂直朝向的、略微陰影的橢圓410表示了替換後的說話人相關高斯PDF。這樣,圖4同樣表明了經過本發明方法處理後的高斯混合函數沒有很顯著的變化。
再次參見圖1,在步驟145確定系統是否需要對附加的說話人進行訓練。如果需要,方法100返回到步驟105。圖3和圖4也可被用來表示本發明的方法是如何調整說話人無關高斯混合函數,使它適應於多於一個說話人的說話人相關系統。也就是說可以通過替換多說話人無關高斯PDF為多說話人相關高斯PDF來使用多說話人訓練系統。例如,再次參見圖3,第二說話人可以重複應用上述方法100來產生第二說話人相關的PDF,可以用它來替換圖3所示的較小的、低幅度PDF曲線之一如。類似的,參照圖4,如果第二說話人根據本發明訓練了說話人無關語音識別系統,就可以替換第二個PDF橢圓,也就是說最好替換第二低權重的PDF。附加的PDF替換將再次給系統的說話人無關性能帶來很小的退化,相反將會對說話人相關識別有非常大的改進。根據在說話人無關模型中的PDF數量,每個新說話人都可以簡單重複應用方法100訓練系統來加入第三個、第四個或者更多數量的說話人相關PDF。優選地,每個新說話人相關PDF都可以替換下一個最小權重的說話人無關PDF,同時保留前面的被其它說話人用來調整的說話人相關PDF。
下表中列出了由本發明得出的語音識別改善的性能。表1是利用兩個說話人無關(SI)資料庫(SI數據I和SI數據II)測試的從本發明的一個實施例得出的試驗數據。兩個資料庫都是從行動電話環境收集的美國英語的數字資料庫。SI數據I有約500個說話人的12169個數字的發音SI數據II有約11個說話人的13665個數字的發音。所述SI數據II資料庫包括大量非正常字符串,因此所顯示出的基本性能比SI數據I資料庫的基本性能要低很多。利用不同說話人訓練SI資料庫的方法,進行了三組試驗。在每個說話人訓練每個資料庫之後,對SI和資料庫的說話人相關(SD)性能進行評估。顯示在表1中的結果是表示SD和SI性能的平均語音識別正確百分率。如上所述,表1表明了伴隨著說話人無關語音識別性能的微小退化,本發明在說話人無關語音識別性能上有著怎樣的顯著提高。
表1語音識別性能
表2示出了多說話人的適應實驗的結果,在這裡根據本發明訓練SI資料庫以識別多說話人。表2表明更多的說話人對SI系統進行適應的時候,SI性能呈現遞增的退化。然而,雖然資料庫被三個說話人訓練之後的退化性能百分比是非常顯著的,但是注意到實際說話人無關語音識別的性能卻保持相當高的水平(例如,在經過三個說話人根據本發明的訓練之後,SI數據I的基本性能僅僅從99.52%下降到99.18%)。表2同時也表明在更多的說話人按照本發明在某個資料庫上被訓練的同時,對每個說話人的語音識別性能也有所下降(例如,說話人1的錯誤減少性能從只對一個說話人進行適應的80.38%下降到對三個說話人進行適應的74.51%)。
表2語音識別性能
參照圖5,示出了一個諸如可用於實現本發明的上述方法的行動電話501形式的系統的示意框圖。電話501包括射頻通信模塊502,其與處理器503連接並通信。形式上為顯示屏幕505,鍵盤506,揚聲器515,和麥克風519的接口也通信與處理器503連接並通信。
處理器503包括編/解碼器511以及與之相關的用於存儲對語音或其它信號進行編碼和解碼的數據的只讀存儲器(ROM)512,該數據可以通過行動電話發送或接收。處理器503還包括一個微處理器513其通過公共數據和地址總線517連接到編/解碼器511和相關的只讀存儲器(ROM)512、514,另外處理器503還包括隨機存取存儲器(RAM)504,靜態可編程存儲器516和可拆卸的SIM模塊518。其中,靜態可編程存儲器516和SIM模塊518可以分別存儲例如本發明所描述的說話人無關語音識別資料庫。
射頻通信單元502是共用一個天線507的接收器和發射器的組合。通信單元502擁有的收發器508通過射頻放大器509與天線507相連接。收發器508也與組合的調製/解調器510相連接,該調製/解調器使通信單元502和處理器503相連接。
微處理器513擁有用於連接到例如鍵盤506,屏幕505,揚聲器515和麥克風519的接口。只讀存儲器514存儲用於對麥克風519接收的發音進行語音識別的代碼,如上所述。
因此,根據本發明的方法100,電話501的主要使用者可能會通過把訓練文字材料讀入到麥克風519來訓練電話501使它能夠更好的識別他/她的聲音。之後微處理器513對訓練語音波形進行分割,計算說話人相關PDF,同時對每個HMM狀態,把存儲在諸如靜態可編程存儲器516當中的說話人無關PDF替換為說話人相關PDF。如上所述,電話501的附加主要用戶同時也重複使用方法100訓練電話501來識別他們的聲音。
依照用戶對語音識別的需求,通過進一步對電話501編程來自動判斷從麥克風519所接收到的發音是訓練過電話的用戶還是其它用戶說出的。可替換地,電話501的用戶可以首先發出命令標識他或她自己,以使電話501能夠立即知道在使用語音識別過程中採用哪個說話人相關PDF,以確保最高準確率。在發音被識別之後,它可以被顯示在屏幕505上或者利用揚聲器515有聲地重複聲音,用於由用戶確認識別的準確性。可替換地,用戶可以直接把識別的發音輸入到文件中,例如輸入到文本消息文件中。
因此,本發明用於提高語音識別系統的語音識別準確率。對於特定的主要使用者,通過把說話人無關語音識別資料庫調整成為適用於一個或者多個說話人的說話人相關資料庫,語音識別系統的準確性可以顯著地提高,同時第二使用者仍然可以在語音識別準確率下降很少的說話人無關模式下利用系統。某些本發明的實施例也包括高效率的算法,與本領域現有的算法相比減少了處理器密集度(processorintensive),同時節省諸如行動電話和個人數字助理(PDA)等掌上設備中有限的能量、存儲器和處理器資源。
上面的詳細說明只是為了提供優選的示範實施例,而並不想限制本發明的範圍、適用性或結構。對優選示範實施例的詳細說明是為了向本領域技術人員提供一個使其能夠實現本發明的優選實施例的說明。應該可以理解,在不背離所附權利要求中所闡述的本發明的精神和範圍的前提下,可以對組件及步驟的功能和結構做出多種不同的改變。
權利要求
1.一種用於生成可以同時適用於說話人相關和說話人無關語音識別的語音識別聲學模板資料庫的方法,所述方法包括如下步驟從第一說話人接收訓練語音波形;把所述訓練語音波形分割成對應於隱含馬爾可夫模型(HMM)的狀態的塊;對每個所述HMM狀態計算對應於所述第一說話人的說話人相關高斯概率密度函數(PDF);在說話人無關聲學模板資料庫中,對每個所述HMM狀態,用所述說話人相關PDF替換說話人無關PDF,其中所述說話人無關聲學模板資料庫包括多個說話人無關HMM,其中每個HMM包括多個高斯PDF,每個PDF擁有一個原始的權重係數;和在所述說話人無關聲學模板資料庫中,為每個所述說話人無關和說話人相關PDF計算新的權重係數。
2.如權利要求1所述的方法,其中所述對每個所述狀態用所述說話人相關PDF替換說話人無關PDF的步驟,對每個所述狀態中擁有最小原始權重係數的說話人無關PDF進行替換。
3.如權利要求1所述的方法,其進一步包括通過把所述訓練語音波形轉換為MFCC特徵文件來對所述訓練語音波形執行前期信號處理的步驟。
4.如權利要求1所述的方法,其進一步包括如下步驟從第二說話人接收訓練語音波形;和在所述說話人無關聲學模板資料庫中,對每個所述狀態,用對應於所述第二說話人的說話人相關PDF替換說話人無關PDF。
5.如權利要求4所述的方法,其中所述對應於第二說話人的說話人相關PDF替換說話人無關PDF的步驟,對每個所述狀態中具有第二小原始權重係數的說話人無關PDF進行替換。
6.如權利要求1所述的方法,其進一步包括如下步驟從多個說話人接收訓練語音波形;和對每個所述HMM狀態,用對應於多個說話人中每個說話人的說話人相關PDF替換說話人無關PDF。
7.如權利要求1所述的方法,其中每個所述的PDF包括一個均值向量(μ)和一個協方差矩陣(∑)所述均值向量根據如下公式計算k(i)=k(i)N,]]>這裡N是與狀態級別對準的特徵向量的數目;和所述協方差矩陣根據如下公式計算k(i,j)=k(i,j)N-k(i)k(j),]]>這裡i和j表示維數下標,k表示HMM狀態。
8.如權利要求1所述的方法,所述新權重係數(Wi)根據如下公式計算Wi=wiw1+w2++awn,]]>這裡wi是原始權重係數,wn是最小權重係數,a是常數,並且一個狀態級別中的所有權重係數之和為1。
9.如權利要求1所述的方法,其中所述把所述訓練語音波形分割成塊的步驟包括對所述訓練語音波形應用狀態級別強制對準操作。
10.一種用於適應語音識別資料庫的系統,所述系統包括微處理器;有效與所述微處理器相連的、用於從第一說話人接收訓練語音波形的麥克風;有效與所述微處理器相連的可編程存儲器,所述可編程存儲器包括說話人無關聲學模板資料庫;有效與所述微處理器相連的只讀存儲器(ROM);所述微處理器有效地執行所述ROM中的代碼,以把所述語音波形分割成對應於隱含馬爾可夫模型(HMM)的狀態的塊;對每個所述HMM狀態計算對應於所述第一說話人的說話人相關高斯概率密度函數(PDF);在所述說話人無關聲音模板資料庫中,對每個所述HMM狀態用說話人相關PDF替換說話人無關PDF,其中所述說話人無關聲學模板資料庫包括多個說話人無關HMM,其中每個HMM包括多個高斯PDF,每個PDF都有一個原始權重係數;和在所述說話人無關聲學模板資料庫中,為每個所述說話人無關和說話人相關PDF計算新的權重係數。
11.如權利要求10所述的系統,其中所述對每個所述狀態用說話人相關PDF替換說話人無關PDF的步驟,對每個狀態中具有最小原始權重係數的說話人無關PDF進行替換。
12.如權利要求10所述的系統,其中所述微處理器進一步通過把所述訓練語音波形轉換為MFCC特徵文件,來有效地對所述訓練語音波形進行前期信號處理。
13.如權利要求10所述的系統,其中所述微處理器進一步有效地從第二說話人接收訓練語音波形;和在說話人無關聲學模板資料庫中,對每個所述狀態,用對應於所述第二說話人的說話人相關PDF替換說話人無關PDF。
14.如權利要求10所述的系統,其中所述用對應於第二說話人的說話人相關PDF替換說話人無關PDF的步驟,對每個所述狀態中具有第二小原始權重的說話人無關PDF進行替換。
15.如權利要求10所述的系統,其中所述微處理器中進一步有效地從多個說話人接收訓練語音波形,以及對每個所述狀態用對應於所述多個說話人中每個說話人的說話人相關PDF替換說話人無關PDF。
全文摘要
本發明公開一種用於生成語音識別聲學模板資料庫的方法和系統,該資料庫可以同時適用於說話人相關以及說話人無關語音識別。所得出的資料庫可以在輕微降低說話人無關語音識別性能的同時顯著地提高說話人相關語音識別的性能。該方法包括如下步驟從第一說話人接收訓練語音波形(步驟105);把訓練語音波形分割成對應於隱含馬爾可夫模型(HMM)的狀態的塊(步驟115);對每個所述HMM狀態計算說話人相關的高斯概率密度函數(PDF)(步驟120);在說話人無關聲學模板資料庫中,對每個所述HMM狀態,用說話人相關PDF替代所述說話人無關PDF,其中所述說話人無關聲學模板資料庫包括多個說話人無關HMM,其中每個HMM包括多個高斯PDF,每個PDF都有原始的權重係數(步驟125);和在所述說話人無關的聲學模板資料庫中為每個所述說話人無關和說話人相關PDF計算新的權重係數。
文檔編號G10L15/00GK1627365SQ20031011828
公開日2005年6月15日 申請日期2003年12月9日 優先權日2003年12月9日
發明者張亞昕, 何昕, 任曉林, 孫放, 吳邊 申請人:摩託羅拉公司