產生聲學模型的方法和裝置的製作方法

2023-12-08 23:17:41 2

專利名稱：產生聲學模型的方法和裝置的製作方法
技術領域：
本發明涉及產生語音的聲學模型的方法和裝置，模型被用於在噪聲環境下達到高識別率。
在噪聲環境下的普通語音識別中，噪聲數據疊加在語音樣本上，並且通過利用噪聲疊加的語音樣本對未訓練的聲學模型訓練以產生對應噪聲環境下語音識別的聲學模型，參見「噪聲混合數據的想像識別系統評價」，1988年3月日本聲學學會會議論文集，3-P-8。

圖10示出了完成普通語音識別的普通聲學模型生成裝置的結構。
在圖8所示的聲學模型生成裝置中，標號201表示存儲器，標號202表示CPU(中央處理單元)而標號203表示鍵盤/顯示器。而且，標號204表示CPU總線，存儲器201、CPU202和鍵盤/顯示器203通過其互相電氣連接起來。
而且，標號205a為存儲訓練用語音樣本205的存儲單元，標號206a為存儲訓練用的一種噪聲樣本的存儲單元而標號207a為存儲未經訓練的聲學模型207的存儲單元，這些存儲單元205a—207a分別與CPU總線204電氣連接。
以下藉助圖9描述經CPU202處理生成的聲學模型。
在圖9中，字符S表示CPU202完成的處理步驟。
首先，CPU202從存儲單元205a讀取語音樣本205並從存儲單元206a讀取噪聲樣本206，並且CPU202將噪聲樣本206疊加在語音樣本205上(步驟S81)，完成預先確定時間長度上每個噪聲疊加的語音樣本的語音分析(步驟S82)。
接著，CPU202從存儲單元207讀取未經訓練的聲學模型207以根據語音分析處理的分析結果訓練未經訓練的聲學模型207，從而生成對應噪聲環境的聲學模型210(步驟S83)。以下將預先確定的時間長度稱為幀，並且幀等於10毫秒。
隨後，一種類型的噪聲樣本206是根據在大廳、車內採集數十秒得到的噪聲獲得的一種數據。
按照該生成處理，當根據疊加噪聲樣本的語音樣本完成未經訓練的聲學模型的訓練操作時，可以獲得較高的識別率。
但是，語音識別時的噪聲環境通常是未知的，因此在上述普通的生成處理中，如果語音識別時的噪聲環境不同於未經訓練的聲學模型訓練操作時的噪聲環境，則會產生識別率降低的問題。
為了解決該問題，人們試圖採集語音識別時的所有噪聲樣本，但是這是不可能的。
實際上，通過假定語音識別時存在大量噪聲樣本，試圖採集假定的噪聲樣本從而完成訓練操作。
但是由於要花費巨大的時間，所以根據所有採集的噪聲樣本來訓練未經訓練的聲學模型是效率低下的。此外，如果大量採集的噪聲樣本在性能上有偏移，則通過利用具有偏差特性的噪聲樣本訓練未經訓練的聲學模型將難以廣泛識別與偏差特性無關聯的未知噪聲。
本發明的目標是克服上述難題。因此本發明的目標是提供一種生成聲學模型的方法和裝置，它能夠將語音識別階段存在的多個噪聲樣本分類為多個簇(c1uster)以從每簇中選擇噪聲樣本，並且能夠將選定的噪聲樣本作為訓練用噪聲樣本疊加在訓練用語音樣本上以根據疊加噪聲的語音樣本訓練未經訓練的聲學模型，從而生成聲學模型。
按照這些模型和系統，可以通過利用生成的聲學模型完成語音識別，從而在未知的噪聲環境下獲得高識別率。
按照本發明的一個方面，提供了一種生成語音識別用聲學模型的裝置，所述裝置包含將多個第一噪聲樣本分類為簇的裝置，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；存儲訓練用的未經訓練的聲學模型的裝置；以及利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置。
按照本發明的另一個方面，提供了一種生成語音識別用聲學模型的方法，所述方法包含以下步驟製作多個第一噪聲樣本；製作訓練用的未經訓練的聲學模型；將多個第一噪聲樣本分類為簇，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本；以及利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型。
按照本發明的另一個方面，提供了一種計算機編程的可讀存儲介質，包含使計算機將多個第一噪聲樣本分類為簇的裝置，所述簇的數量小於噪聲樣本數量；使計算機在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；使計算機存儲訓練用的未經訓練的聲學模型的裝置；以及使計算機利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置。
在本發明的這些方面中，由於將多個對應多種噪聲環境的第一噪聲樣本分類為從而在每個簇中選擇噪聲樣本，由此根據每個選定的噪聲樣本訓練未經訓練的聲學模型，生成語音識別用的訓練過的聲學模型，所以可以利用少量的噪聲樣本訓練未經訓練的聲學模型並廣泛覆蓋多種無偏差的噪聲，從而可以生成能夠在任何未知環境下獲得高識別率的經過訓練的語音識別用的聲學模型。
按照本發明的另一個方面，提供了一種識別未知語音信號的裝置，包含將多個第一噪聲樣本分類為簇，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；存儲訓練用的未經訓練的聲學模型的裝置；利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置；輸入未知語音信號的裝置；以及根據經過訓練的語音識別用聲學模型識別未知的語音信號的裝置。
在本發明的進一步方面，由於根據多個噪聲樣本來利用上述語音識別的訓練的聲學模型，所以可以在噪聲環境下獲取高識別率。
通過以下結合附圖對本發明的描述將進一步理解本發明的其他目標和方面，其中圖1為按照本發明第一實施例的聲學模型生成裝置的結構示意圖；圖2為按照本發明第一實施例的聲學模型生成裝置的操作流程圖；圖3為按照第一實施例的圖1步驟S23詳細操作的流程圖；圖4為按照第一實施例的噪聲樣本示意圖；圖5為圖3中步驟S23a—23f的操作結果獲得的系統樹圖；圖6為按照第一實施例的聲學模型生成裝置生成聲學模型操作的流程圖；圖7為圖6步驟S33中幀匹配操作概念的示意圖；圖8為按照本發明第二實施例的語音識別裝置的結構示意圖；圖9為按照本發明第二實施例的語音識別裝置的語音識別操作的流程圖；圖10為普通聲學模型生成裝置的結構示意圖；以及圖11為圖10所示語音識別裝置普通聲學模型生成操作的流程圖。
以下藉助附圖描述本發明的較佳實施例。
(第一實施例)圖1為按照本發明第一實施例的聲學模型生成裝置的結構示意圖。
在圖1中，由至少一臺計算機構成的聲學模型生成裝置100包含存儲程序P的存儲器101、可以讀取程序P並且根據程序P完成操作的CPU102。
聲學模型生成裝置100還包含鍵盤/顯示單元103，用於操作人員向CPU102輸入數據和根據發送的數據顯示信息；以及CPU總線104，存儲器101、CPU102和鍵盤/顯示單元103通過其電氣連接從而允許相互之間進行數據通信。
而且，聲學模型生成裝置100包含存儲訓練用的多個語音樣本105的第一存儲單元105a、存儲多個噪聲樣本NO1、NO2、…、NOM的第二存儲單元106、存儲由CPU102生成的訓練用的噪聲樣本的第三存儲單元107以及存儲未經訓練的聲學模型108的第四存儲單元108a。這些存儲單元與CPU總線104電氣連接從而可以使CPU102往來於這些存儲單元進行訪問。
在該第一實施例中，CPU102首先根據圖2所示流程圖的程序P執行選擇操作，接著，根據圖6所示的流程圖的程序P執行聲學模型生成操作。
即，以下藉助圖2描述CPU102訓練用的噪聲樣本的選擇操作。
即，如圖2所示，提前製作儘可能多的存儲在第二存儲單元106上的對應多個噪聲環境的多個噪聲樣本NO1、NO2、…、NOM。在該實施例中，噪聲樣本的數量例如為M。
CPU102在預先確定的時間長度(預先確定部分；以下稱為幀)上執行每個噪聲樣本NO1、NO2、…、NOM的語音分析從而獲得每個噪聲樣本NO1、NO2、…、NOM中每幀的k階特性參數(步驟S21)。
在該實施例中，幀(預先確定的時間長度)對應10毫秒，並且作為k階特性參數，採用第一階一第七階LPC(線性預測編碼)倒頻譜係數(C1、C2、…、C7)。這些k階特性參數被稱為特性矢量。
隨後，CPU102獲取每個噪聲樣本NO1、NO2、…、NOM的每個特性矢量內的時間平均矢量。因此獲得了對應M個噪聲樣本NO1、NO2、…、NOM的M個時間平均矢量(步驟S22)。
接著，通過利用簇化方法將M個時間平均矢量分類(簇化)為N類(簇)(步驟S23)。在該實施例中，作為簇化方法，採用分層簇化方法。
即，在分層簇化方法中，噪聲樣本(時間平均矢量)之間的距離被用作噪聲樣本(時間平均矢量)之間相似性(同質化)的量度。在該實施例中，作為噪聲樣本之間相似性的量度，採用兩個時間平均矢量之間的加權歐幾裡得距離。作為噪聲樣本之間相似性的其他量度，可以採用歐幾裡得距離、普通的Mahalanobis距離、考慮樣本乘積之和和離散度的Battacharyya距離。
此外，在該實施例中，兩個簇之間的距離被定義為「通過將屬於兩個簇的任意兩個樣本組合形成的距離中的最小距離(最近距離)」。定義方法被稱為「最近鄰方法」。
可以採用其他定義方法作為兩個簇之間的距離。
例如，作為其他定義方法，兩個簇之間的距離可以定義為「通過將屬於兩個簇的任意兩個樣本組合形成的距離中的最大距離(最遠距離)」，該定義方法被稱為「最遠近鄰方法」，可以定義為「兩個簇質心之間的距離」，該方法被稱為「質心方法」，而且可以定義為「通過將屬於兩個簇的任意兩個樣本組合形成的所有距離平均化計算得到的平均距離」，該定義方法被稱為「分組平均方法」。
即，CPU102將M個時間平均的矢量設定為M個簇(圖3的步驟23a)，並通過利用最近鄰方法計算每個簇之間的每個距離(步驟S23b)。
接著，CPU102提取至少一對距離比其他兩簇對都短(最近)的兩簇對(步驟S23c)，並且將兩個提取的簇連結以將連結的簇設定為同一簇(步驟S23d)。
CPU102確定簇的數量是否等於1(步驟S23e)，並且如果步驟S23e中的確定結果為NO，則CPU102返回步驟S23c的處理，從而通過利用連結簇重複地完成從步驟S23c—S23e的操作。
隨後，如果簇的數量為1使得步驟S23e的確定結果為YES，則CPU102根據簇之間的連結關係生成指示M個噪聲樣本NO1、NO2、…、NOM之間相似性的系統樹圖DE(步驟S23f)。
在該實施例中，數量M被設定為17，因此40秒內的噪聲樣本NO1～NO17例如如圖4所示。
在圖4中，示出了每個噪聲樣本的名稱和標記屬性。例如，噪聲樣本NO1的名稱為「河流」而屬性為河流的沙沙聲，噪聲樣本NO11的名稱為「商務辦公室」而屬性為商務辦公室內的噪聲。
圖5示出了步驟S23a～S23f中簇化操作結果獲得的系統樹圖DE。
在圖5所示的系統樹圖DE中，沿水平方向的長度指示每個簇之間的距離，當在給定位置切割系統樹圖DE時，簇被配置為相互連結和相關的噪聲樣本組。
即，在該實施例中，CPU102在破折線C-C上的預先確定位置切割系統樹圖DE從而將噪聲樣本NO1～NO17劃分為N(＝5)個簇，其中N小於M(步驟S23g)。
如圖5所示，在破折線C-C上切割系統樹圖DE滯後，由於噪聲樣本NO1與NO2互相連結，噪聲樣本NO3～NO5彼此連結，噪聲樣本NO8與NO9彼此連結，噪聲樣本NO10～NO12彼此連結，噪聲樣本NO13～NO15彼此連結，以及噪聲樣本NO16與NO17彼此連結，所以可以將噪聲樣本噪聲樣本NO1～NO17分類為N(＝5)個簇。
即，簇1～5定義如下簇1{「噪聲樣本NO1(河流)」與「噪聲樣本NO2(音樂)」}；簇2{「噪聲樣本NO3(標記II)」、「噪聲樣本NO4(花冠)」、「噪聲樣本NO5(ESTIMA)」、「噪聲樣本NO6(MAJESTA)」和「噪聲樣本NO7(PORTOPIA大廳)」}；簇3{「噪聲樣本NO8(數據顯示大廳)」與「噪聲樣本NO9(地鐵)」}；簇4{「噪聲樣本NO10(百貨商場)」、「噪聲樣本NO11(商務辦公室)」、「噪聲樣本NO12(實驗室)」、「噪聲樣本NO13(BUZZ-BUZZ)」、「噪聲樣本NO14(辦公室)」和「噪聲樣本NO17(街道工廠)」}；以及簇5{「噪聲樣本NO16(幼兒園)」與「噪聲樣本NO17(東京火車站)」}。
在完成步驟S23(S23a～S23g)之後，CPU102在簇1～5的每一個中任意選擇一個噪聲樣本以設置選定的噪聲樣本為N個噪聲樣本(噪聲樣本1～N(＝5))，從而將選定的噪聲樣本作為訓練NL1～NLN用的噪聲樣本存儲在第三存儲單元107上(步驟S24)。作為在簇中選擇一個噪聲樣本的方式，可以選擇最靠近簇中質心的一個噪聲樣本或者在簇中隨機選擇一個噪聲樣本。
在該實施例中，CPU102選擇簇1中的噪聲樣本NO1(河流)、簇2中的噪聲樣本NO3(標記II)、簇3中的噪聲樣本NO8(數據顯示大廳)、簇4中的噪聲樣本NO10(百貨商場)以及噪聲樣本NO16(幼兒園)，並且將選定的噪聲樣本NO1、NO3、NO8、NO10和NO16設定為訓練用的噪聲樣本NL1、NL2、NL3、NL4和NL5、以存儲在第三存儲單元107上。
其次，以下按照圖6描述CPU102的聲學模型生成操作。
首先，CPU102從第三存儲單元107中提取噪聲樣本NL1～NLN中的一個(步驟S30)，並且將提取的噪聲樣本NL1～NLN中的一個疊加在存儲在第一存儲單元105a上的多個訓練用語音樣本105上(步驟S31)。
在該實施例中，作為訓練用的語音樣本105，採用一組音韻學平衡單詞543×80人。
以下描述步驟S31中的疊加方式。
CPU102以預先確定的採樣頻率(Hz)將語音樣本105轉換為數位訊號S(i)(i＝1，…，I)並且以採樣頻率(Hz)將提取的噪聲樣本NLn(1≤n≤N)轉換為數位訊號Nn(i)(i＝1，…，I)。接著，CPU102將數位訊號Nn(i)疊加在數位訊號S(i)上以生成疊加噪聲的語音樣本數據Sn(i)(i＝1，…，I)，它用下列方程表示為Sn(i)＝S(i)＋Nn(i)(1)這裡i＝1，…，I，並且I為採樣頻率乘以數據採樣時間獲得的數值。
接著，CPU102在預先確定的時間長度(幀)內執行疊加噪聲的語音樣本數據Sn(i)的語音分析從而獲得對應疊加噪聲語音樣本數據的p階時間順序特性參數(步驟S32)。
具體而言，在步驟S32中，CPU102在幀內執行疊加噪聲的語音樣本數據的語音分析從而獲得每幀語音樣本數據的作為p階特性參數的LPC倒頻譜係數和這些時間回歸係數。在該實施例中，採用LPC倒頻譜係數，但是可以採用FFT(快速傅利葉變換)倒頻譜係數、MFCC(Mel頻率倒頻譜係數)、Mel-LPC倒頻譜係數等代替LPC倒頻譜係數。
接著，CPU102利用作為特性參數矢量的p階特性參數訓練未經訓練的聲學模型108(步驟S33)。在該實施例中，特性參數矢量由每幀的特性參數組成，但是特性參數矢量可以由多幀的特性參數組成。
作為完成步驟S31-S33中操作的結果，根據提取的噪聲樣本NLn訓練聲學模型108。
隨後，CPU102判斷聲學模型108是否根據所有噪聲樣本NLn(n＝1～N)得到訓練，並且如果步驟S34中的判斷為NO，則CPU102返回步驟S31中的處理從而重複完成步驟S31-S34的操作。
如果聲學模型108根據所有噪聲樣本NLn(n＝1～N)得到訓練從而使步驟S34中的判斷為YES，則CPU102將生成的聲學模型作為經過訓練的聲學模型110存儲在第四存儲單元108a上，模型1O根據所有的噪聲樣本NLn得到訓練(步驟S35)。
作為訓練用的聲學模型108，可以採用DP(動態規劃)匹配方法的矢量特性的時域序列模式，它們被稱為標準模式隨機模型，例如HMM(隱含Markov模型)。在該實施例中，作為訓練用的聲學模型108，採用DP匹配方法的標準模式。DP匹配方法是一種能夠在考慮時間軸標度的同時計算兩種模式之間相似性的有效方法。
作為標準模式的單位，通常採用音素、音節、半音節、CV/VC(輔音＋元音/元音＋輔音)等。在該實施例中，採用音節作為標準模式的單位。標準模式的幀數量被設定為等於平均音節幀。
即，在訓練步驟S33中，步驟S32獲得的特性參數矢量(疊加噪聲語音樣本)由音節分割，並且在考慮時間標度的同時利用DP匹配方法使切割的語音樣本和標準模式在每幀上都得到匹配，從而使每個特性參數矢量的各幀對應每個標準模式的幀。
圖7示出了步驟S33內的幀匹配操作。即，對應「/A//SA//HI/」、「/BI//SA//I/」的特性參數矢量(噪聲疊加語音樣本數據)與對應「/SA/」的標準模式在音節(//)上匹配。
在該實施例中，假定每個標準模式(標準矢量)符合單個高斯分布，則獲得對應每個標準模式的每幀的每個特性參數矢量的每幀的平均矢量和協方差，從而使每個標準模式的每幀的平均矢量和協方差為經過訓練的標準模式(經過訓練的聲學模型)。在該實施例中，採用單個高斯分布，但是可以採用混合高斯分布。
根據所有的噪聲樣本NLn(n＝1～N)完成上述訓練操作。因此，最後可以根據所有噪聲樣本NLn(n＝1～N)獲得經過訓練的聲學模型110，它包含對應疊加N個噪聲樣本的語音樣本數據的平均矢量和協方差矩陣。
如上所述，由於將對應多個噪聲環境的多個噪聲樣本分類為簇，所以可以在每個簇中選擇一個噪聲樣本從而獲得涵蓋多種噪聲環境而數量又較少噪聲樣本。
因此，由於將獲得的噪聲樣本疊加在語音樣本上從而根據疊加噪聲的語音樣本數據訓練未經訓練的聲學模型，所以可以利用少量的噪聲樣本訓練未經訓練的聲學模型並且廣泛地涵蓋多種無偏差的噪聲，可以生成能夠在任何未知環境下獲得高識別率的訓練過的聲學模型。
(第二實施例)圖8為按照本發明第二實施例的語音識別裝置150的結構示意圖。
由至少一臺與第一實施例中計算機相同的計算機構成的語音識別裝置150包含存儲程序P1的存儲器151、可以讀取程序P1並且根據程序P1完成操作的CPU152、用於操作人員向CPU152輸入數據和根據發送的數據顯示信息鍵盤/顯示單元153以及CPU總線154，上述單元151～153通過其電氣連接從而允許相互之間進行數據通信。
而且語音識別裝置150包含語音輸入單元155，用於將未知的語音信號輸入CPU152；存儲識別用單詞的音節的字典資料庫156；以及存儲單元157，存儲第一實施例中聲學模型生成裝置100生成的每個音節的經過訓練的聲學模型110。輸入單元155、字典資料庫155和存儲單元156與CPU總線154電氣連結從而使CPU152可以往來訪問於輸入單元155、字典資料庫156和存儲單元157。
在該實施例中，當通過輸入單元155向CPU152輸入未知的語音信號時，CPU152按照圖9所示的流程，根據程序P1，以輸入的語音信號執行語音識別操作。
即，CPU152首先在預先確定的時間長度(幀)上執行輸入語音信號的語音分析，從而提取每幀的k階順序特性參數，這些操作與圖2的步驟S32類似，因此提取的特性參數等價於步驟S32中的參數(步驟S61)。
CPU152根據存儲在字典資料庫156內的音節完成輸入的未知語音信號的順序特性參數與每個音節的聲學模型110之間的DP匹配，從而輸出在其他單詞中具有最大相似性的單詞作為語音識別結果(步驟S63)。
按照完成上述操作的語音識別裝置150，利用語音樣本訓練聲學模型，在該樣本上疊加了使大量噪聲樣本簇化確定的噪聲樣本，從而可以在未知環境下獲得高識別率。
以下描述利用語音識別裝置的語音識別實驗結果。
為了證明本發明的效果，利用上述實施例獲得的語音識別裝置150和聲學模型進行語音識別實驗。作為評價數據，採用10個人講的幾百個地名的語音數據。未用於行進的鼻音樣本被疊加在評價數據上從而完成100個單詞(100個地名)的識別實驗。對應噪聲樣本NL1～NLN(N＝5)的訓練用噪聲樣本為「河流」、「標記II」、「數據顯示大廳」、「辦公室」和「KINDERGRATEN」。
疊加在評價數據上的噪聲樣本是簇1中的「音樂」、簇2中的「MAJESTA」、簇3中的「地鐵」、簇4中的「辦公室」和簇5中的「東京火車站」。此外，作為未知的噪聲樣本，在路旁錄製的噪聲樣本「道路」和錄製的TV的噪聲樣本「TV CM」被疊加在評價數據上，從而進行單詞識別實驗。
而且作為對比實驗，同樣進行利用只經過簇2中噪聲樣本「標記II」訓練的聲學模型的單詞識別實驗(對應上述普通語音識別)。
作為這些實驗的結果，表1示出了單詞識別率(％)。
如表1所示，按照利用簇2中噪聲樣本標記II訓練的(A)，如果訓練時與識別時的噪聲樣本相同(例如簇中的噪聲樣本)，則獲得例如94.8％的高識別率。
但是在屬於簇2以外簇的噪聲環境中，識別率變差。
相反，按照利用簇1～5中所有噪聲樣本訓練的(B)，獲得的除了簇2以外的各簇的識別率為簇1中的77.1％、簇3中的92.7％、簇4中的90.5％、簇5中的91.3％，高於按照(A)的識別率。
而且，按照未知噪聲環境下的實驗，對應(B)的本發明噪聲樣本「道路」和「TV CM」下的識別率高於對應(A)的普通語音識別。
因此在本發明中，顯而易見的是在未知噪聲環境下獲得了高識別率。
在實施例中，選定的N個噪聲樣本被疊加在訓練用的語音樣本上從而訓練狀態為單個高斯分布的未經訓練的聲學模型，但是在本發明中，聲學模型的狀態可以是由對應各噪聲樣本的N個高斯分布組成的混合高斯分布。而且可以訓練N個聲學模型，每個表示單個高斯分布，從而當進行語音識別時，可以完成N個聲學模型與對應輸入的未知語音信號的特性參數之間的匹配操作，從而將分數設定為具有最大相似性的聲學模型作為最大分數。
雖然藉助較佳實施例描述了本發明，但是本發明的精神和範圍由所附權利要求限定。
權利要求
1.一種生成語音識別用聲學模型的裝置，其特徵在於所述裝置包含將多個第一噪聲樣本分類為簇的裝置，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；存儲訓練用的未經訓練的聲學模型的裝置；以及利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置。
2.如權利要求1所述的裝置，其特徵在於所述分類裝置進一步包含按幀執行每個第一噪聲樣本的語音分析以獲得每個第一噪聲樣本內每幀的特性參數的裝置；獲得每個第一噪聲樣本的每個特性矢量的時間平均矢量的裝置；以及將各特性矢量的時間平均矢量劃分入簇的裝置。
3.如權利要求2所述的裝置，其特徵在於所述簇化裝置利用分層簇化方法完成簇化操作。
4.如權利要求2所述的裝置，其特徵在於所述簇化裝置進一步包括將時間平均矢量設定為簇的裝置；計算每個簇之間的每個距離的裝置；提取設定簇中至少一對簇由(兩簇組成)的裝置，所述至少一對簇對提供了在設定簇中比其他任何兩簇的對都短的距離；將兩個提取的簇連結以將連結的簇設定為同一簇的裝置；確定包含同一簇的簇的數量是否等於1，所述提取裝置和連結裝置在確定簇的數量不等於1時重複完成提取操作和連結操作；如果確定簇的數量等於1則生成系統樹圖來指示連結簇之間的連結關係並指示第一噪聲樣本之間相似性的裝置；以及在預先確定的位置切割系統樹圖以獲得互相連結的多個簇的裝置，其中所述選擇裝置在每個獲得的多個簇中選擇噪聲樣本。
5.如權利要求1所述的裝置，其特徵在於所述訓練裝置進一步包括存儲訓練用的多個語音樣本的裝置；提取至少一個訓練用的第二噪聲樣本的裝置；將至少一個提取的第二噪聲樣本疊加在訓練用語音樣本上的裝置；按幀執行每個疊加噪聲的語音樣本的語音分析以獲得對應噪聲疊加語音樣本的特性參數的裝置；以及根據獲得的特性參數訓練未經訓練的聲學模型以獲得語音識別用聲學模型的裝置，所述經過訓練的聲學模型按照至少一個提取的噪聲樣本進行訓練。
6.一種識別未知語音信號的裝置，其特徵在於包含將多個第一噪聲樣本分類為簇，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；存儲訓練用的未經訓練的聲學模型的裝置；利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置；輸入未知語音信號的裝置；以及根據經過訓練的語音識別用聲學模型識別未知的語音信號的裝置。
7.一種計算機編程的可讀存儲介質，其特徵在於包含使計算機將多個第一噪聲樣本分類為簇的裝置，所述簇的數量小於噪聲樣本數量；使計算機在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本的裝置；使計算機存儲訓練用的未經訓練的聲學模型的裝置；以及使計算機利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型的裝置。
8.一種生成語音識別用聲學模型的方法，其特徵在於所述方法包含以下步驟製作多個第一噪聲樣本；製作訓練用的未經訓練的聲學模型；將多個第一噪聲樣本分類為簇，所述簇的數量小於噪聲樣本數量；在每個簇中選擇噪聲樣本以將選定的噪聲樣本設定為訓練用的第二噪聲樣本；以及利用訓練用的第二噪聲樣本訓練未經訓練的聲學模型從而生成語音識別用的聲學模型。
全文摘要
本發明提供一種生成聲學模型的方法和裝置,它能夠將語音識別階段存在的多個噪聲樣本分類為多個簇以從每簇中選擇噪聲樣本,並且能夠將選定的噪聲樣本作為訓練用噪聲樣本疊加在訓練用語音樣本上以根據疊加噪聲的語音樣本訓練未經訓練的聲學模型,從而生成聲學模型。
文檔編號G10L15/06GK1331467SQ0112252
公開日2002年1月16日申請日期2001年6月27日優先權日2000年6月28日
發明者山田麻紀, 星見昌克申請人:松下電器產業株式會社

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

產生聲學模型的方法和裝置的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法