語音識別噪聲自適應系統、方法及程序的製作方法

2023-05-16 15:52:31 2

專利名稱：語音識別噪聲自適應系統、方法及程序的製作方法
技術領域：
本發明涉及一種語音模型噪聲自適應系統、噪聲自適應方法以及語音識別噪聲自適應程序。具體地說，本發明涉及採用所要識別的有嘈語音來使利用隱馬爾可夫模型(HMM)對語音特徵進行建模而產生出的淨語音(clean speech)模型適應，從而改善有噪環境下的識別速率的語音模型噪聲自適應系統、噪聲自適應方法以及語音識別噪聲自適應程序。
背景技術：
在下面的非專利文獻1中描述了一種樹形結構分段線性變換方法。根據在該文獻中所披露的方法，將噪聲聚類，並且根據聚類的結果產生出樹形結構有噪語音模型空間，提取出所要識別的輸入有嘈語音的語音特徵參數，從樹形結構有噪語音模型空間中選擇出最優模型，並且對所選的模型進行線性變換以便提高所選模型的似然性，由此提高輸入語音的精確度。
(非專利文獻1)Zhipeng Zhang等人的「Effects of tree-structure clustering innoise adaptation using piecewise linear transformation」(2002 AutumnMeeting of the Acoustical Society of Japan，第29-30頁)在上述文獻中的生成加有噪聲的語音模型的過程中，只將噪聲數據聚類，然後將該噪聲加入到語音中，並且學習該加有噪聲的語音模型。該方法的問題在於，在聚類過程中的噪聲的特徵和在模型學習過程中的加有噪聲的語音模型中的特徵之間出現偏差。

發明內容
本發明克服了現有技術的這個缺點，並且本發明的第一目的在於提供能夠對各種類型的噪聲數據進行最優聚類的語音模型噪聲自適應系統、噪聲自適應方法以及語音識別噪聲自適應程序。
本發明的第二目的在於提供可以利用聚類的結果來提高語音識別速率的語音模型噪聲自適應系統、噪聲自適應方法以及語音識別噪聲自適應程序。
根據本發明的權利要求1，提供一種使針對任意噪聲的語音模型適應在有噪環境中所要識別的語音的語音模型噪聲自適應系統，通過採用淨語音數據來學習該語音模型，該系統包括聚類部件，用於將加有噪聲的語音聚類；語音模型空間產生部件，用於根據由聚類部件進行的聚類結果產生出樹形結構有噪語音模型空間；參數提取部件，用於提取出所要識別的輸入有噪語音的語音特徵參數；選擇部件，用於從由語音模型空間產生部件產生出的樹形結構有噪語音模型空間中選擇出最優模型；以及線性變換部件，用於對由選擇部件所選的模型進行線性變換，從而進一步提高該模型的似然性(likelihood)。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以實現對許多類型的噪聲數據進行最優聚類並且提高對輸入語音的語音模型序列估計的精確度。
根據本發明的權利要求2，提供一種如權利要求1所述的語音模型噪聲自適應系統，其中所述聚類部件通過根據信噪比條件將噪聲加入到語音中來產生出加有噪聲的語音，減去所產生出的加有噪聲的語音的語音倒頻譜(speech cepstral)的平均值，產生出每個所產生出的加有噪聲語音片斷的高斯分布模型，並且計算出在這些加有噪聲的語音片斷之間的似然性以產生出一似然性矩陣，從而提供一聚類結果。這使得能夠將加有噪聲的語音聚類。
根據本發明的權利要求3，提供一種如權利要求1或2所述的噪聲自適應系統，其中所述選擇部件選擇對於參數提取部件所提取的語音特徵參數具有最大似然性的模型。通過選擇提供了最大似然性的模型，從而可以提高語音識別的精確度。
根據本發明的權利要求4，提供一種如權利要求3所述的噪聲自適應系統，其中所述選擇部件通過從最高級向下至最低級對該樹形結構有噪語音模型空間進行搜索來選擇一模型。通過從最高級到最低級對該樹形結構進行搜索，從而可以選擇出最優模型。
根據本發明的權利要求5，提供一種如前面權利要求中任一項所述的噪聲自適應系統，其中所述線性變換部件根據由選擇部件所選的模型來進行線性變換以提高似然性。通過進行線性變換，從而可以使似然性最大。
根據本發明的權利要求6，提供一種用於使針對任意噪聲的語音模型適應要在有噪環境中識別的語音的語音模型噪聲自適應方法，通過採用淨語音數據來對該語音模型進行學習，該方法包括聚類步驟，用來將加有噪聲的語音聚類；語音模型空間產生步驟，用來根據在聚類步驟所進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟所產生出的樹形結構噪聲語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟所選的模型進行線性變換，從而進一步提高該模型的似然性。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以實現對輸入語音的語音模型序列的估計的精確度的提高。
根據本發明的權利要求7，提供一種語音識別噪聲自適應程序，該程序控制計算機來使針對任意噪聲的語音模型適應在有噪環境中所要識別的語音，通過採用淨語音數據來對該語音模型進行學習，該程序包括聚類步驟，用來將加有噪聲的語音聚類；語音模型空間產生步驟，用來根據在聚類步驟所進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟所產生出的樹形結構噪聲語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟所選的模型進行線性變換，從而進一步提高該模型的似然性。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以實現提高對輸入語音的語音模型序列估計的精確度。
總之，本發明採用了噪聲資料庫來根據SNR狀況(後面所述的步驟S1)來向淨語音加入噪聲。將加有噪聲的語音聚類以建立一樹形結構加有噪聲的語音模型空間。在該加有噪聲的語音模型空間中，將在每個節點處的噪聲加入到所述淨語音中以構建出加有噪聲的語音(後面所述的步驟S3)。在加有噪聲的語音的樹形結構模型空間中計算出似然性(後面所述的步驟S4)，然後從頂部向下對該樹形結構進行搜索以選擇出最優模型(後面所述的步驟S7)。根據這樣選擇的自適應語音自適應模型序列的模型參數進行線性變換以便使似然性最大(後面所述的步驟S8)。
因此，該加有噪聲的語音不僅用在模型學習過程中，而且用在聚類過程中。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以學習到最合適的加有噪聲的語音模型。因此，可以實現更高的識別精確度。

圖1為一方框圖，顯示出根據本發明一個實施方案的語音模型噪聲自適應系統的結構；圖2為一功能方框圖，其中在圖1中所示的部件根據在該系統中的操作流程進行排列；圖3為由該系統進行的過程的流程圖；圖4為一原理圖，顯示出在樹形結構有噪語音模型空間中選擇最優模型的過程；並且圖5顯示出通過採用由該系統適應的語音HMM而實現的字精確度。
具體實施例方式
下面將參照附圖對本發明的實施方案進行說明。在以下說明書中所參照的附圖中相同的元件標有相同的參考標號。
在本發明中，根據信噪比(SNR)和聲音質量將有噪語音模型空間構建成一樹形結構。通過樹形結構來表示噪聲特性提供了一模型，其中在較高層表示噪聲的整體特徵，而在較低層表示局部特徵。可以按照由頂部至下的方式從根部向下搜尋該樹形結構來選擇最優的分段空間，從而選擇出最優模型。
因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以學習到提供最高似然性的加有噪聲的語音模型，並且可以實現識別精確度的提高。
(系統配置)下面將參照圖1對實施該過程的結構進行說明。圖1為一方框圖，顯示出根據本發明的噪聲自適應系統的實施方案。根據本發明的該噪聲自適應系統包括一樹形結構模型存儲器1、一特徵提取單元2、一語音識別單元3、一模型選擇和確定單元4、一模型線性變換自適應單元5以及一識別結果存儲器6。
該樹形結構模型存儲器1存儲有加有噪聲的語音HMM，該HMM由於加有噪聲的語音中的聚類而已經構建成一兩級(SNR和噪聲特性等級)樹形結構。
特徵提取單元2對輸入給它的語音數據進行分析並且將它轉換成特徵向量。
語音識別單元3對從輸入數據轉換成的時間序列特徵向量時間進行Viterbi算法以獲得提供最高似然性功能的模型序列。
模型選擇和確定單元4從存儲在樹形結構模型存儲器中的模型中選擇出具有最高似然性的最優模型。
模型線性變換自適應單元5對由模型選擇和確定單元4所選的模型進行線性變換以便使其似然性最大。
識別結果存儲器6存儲有語音識別結果。
(該系統的操作)下面將參照圖2和3對具有上述結構的系統的操作進行說明。圖2為一功能方框圖，其中根據該系統中的操作流程將在圖1中所示的部件重新排列。圖3為由該系統進行的過程的流程圖。
在該系統中進行語音識別的過程遵循如下所述的步驟S1至S9。
步驟S1(產生加有噪聲的語音的步驟)採用噪聲資料庫根據SNR狀況向淨語音加入噪聲以產生出加有噪聲的語音，其中在該實施例中SNR＝5、10和15dB。
步驟S2(減去加有噪聲的語音的平均值)對在步驟S1產生的加有噪聲的語音進行CMS(倒頻譜平均減法，cepstral mean substraction)。CMS是一種用來減去語音倒頻譜的平均值的技術。也就是說，計算出在一定間隔中的所有語音數據幀的數值的平均倒頻譜，並且從每幀的向量中減去該平均值。倒頻譜(cepstral)是由傅立葉變換所獲得的功率譜的對數的傅立葉變換。在Furui的題目為「Cepstral AnalysisTechique For Automatic Speaker Verification」(IEEE Transaction onAcoustical Speech and Signal Processing，Vol.ASSP-29，第254-272頁，1981)的文獻中披露了該CMS。
步驟S3(產生加有噪聲的語音模型的步驟)通過鮑姆-韋爾奇(Baum-Welch)算法產生出每個加有噪聲的語音的高斯混合模型(GMM)。鮑姆-韋爾奇(Baum-Welch)算法為從適當的初始值開始逐漸接近最優數值的重複方法。在Seiiich Nakagawa的題目為「Speechrecognition with probabilistic model」(Institute ofElectronics，Information and Communication Engineers，1988)的文獻中披露了該鮑姆-韋爾奇(Baum-Welch)算法。
步驟S4(將加有噪聲的語音聚類的步驟)然後採用GMM來計算出在加有噪聲的語音片段之間的似然性以產生出一似然性矩陣。採用基於似然性的SPLIT方法來連續地將加有噪聲的語音聚類。在該SPLIT方法中，順序將具有最大畸變的聚類分開。因此，可以產生出任意數量的聚類。可以簡單地通過給出聚類數量來完全自動地獲得聚類的結果。在Sugamura等人的Speech Committee document中披露了該SPLIT方法。
步驟S5(用於分段線性變換自適應)通過步驟S4提供加有噪聲的語音的樹形結構聚類結果。將聚類結果存儲在樹形結構模型存儲器1中。聚類結果採用樹形結構的形式表示特徵。因此，該加有噪聲的語音的整體特徵在該樹形結構的較高層標識出，而該語音的局部特徵表示在較低層。
將聚類結果應用於分段線性變換。在Zhang等人的文章(Proceedings of the 2002 Autumn Meeting of the Acoustical Society ofJapan，第29-30頁)中披露了該分段線性變換。具體地說，進行下面所述的步驟S6至S9。
步驟S6(提取特徵數值)特徵提取單元2從所要識別的加有噪聲的語音數據中提取特徵數值。在該特徵數值提取中，對輸入的語音數據的每一幀進行LPC(線性預測編碼，Linear Prediction Coding)分析以獲得時間序列特徵參數向量例如倒頻譜或Δ倒頻譜作為特徵參數序列。
步驟S7(選擇最優模型)下面將參照圖4對選擇最優模型的步驟進行說明。在圖4的頂部處的節點(根節點)表示淨語音模型。在該根節點下面，有針對每個SNR的N個模型。N個模型就是模型SNR-1至模型SNR-N。這N個模型SNR-1至SNR-N表示通過從在特定SNR條件下加入所有類型的噪聲而產生出的語音學習到的模型。
在它們下面的子節點表示從通過根據聚類結果加入一些選定類型的噪聲而產生出的語音數據中學習到的模型。在該樹形結構的底部處為從通過只加入某個類型的噪聲而產生出的語音中學習到的模型。因此，整體噪聲特性表示在該樹形結構的較高層，而局部噪聲特性表示在較低層。
為了進行識別，首先通過採用在步驟S4處獲得的特徵參數序列來計算出在根節點處所給出的淨模型的似然性。這是通過在圖1中所示的語音識別單元3來進行的。
然後，語音識別單元3採用根節點下面的模型來計算出似然性。這樣計算出的似然性數值由模型選擇和確定單元4用來選擇一最優模型。具體地說，這是按照以下程序來實現的。保留提供比在根節點處的淨模型的似然性更高的似然性的模型。然後，使用在它們下面的子節點處的模型來計算出在這些SNR條件下的似然性。將兩個子節點模型的似然性與父節點的似然性進行比較。如果子節點模型提供了最大似然性，則計算出在那個節點下面的子節點模型的似然性。另一方面，如果父節點的似然性高於子節點模型的似然性，則不再進行進一步的計算，並且將父節點確定為最優節點。
在圖4中，搜索路徑由實線表示。可以重複進行該計算以找出最優空間。另外，將在不同SNR條件下的最高似然性模型的似然性相互進行比較以確定在它們中提供了最高似然性的模型作為在整個有噪語音空間中的最優模型。在圖4中所示的實施例中，第四節點提供了在條件NR-1下的最高似然性。將在不同SNR條件下的最高似然性模型的似然性相互進行比較以選擇出在這些最高似然性節點中提供了最高似然性的模型。
步驟S8(線性回歸)模型線性變換自適應單元5對所選模型進行最大似然性回歸(Maximum Likelihood Regression，下面縮寫為MLLR)以便進一步提高似然性。在題目為「Mean and variance adaptation withinthe MLLR framework」(M.J.F Gales等人，Computer Speech andLanguage，第240-264頁，1996)的文獻中披露了MLLR。具體地說，採用從識別中得到的音素序列來根據最大似然性原則估計出線性變換矩陣，並且HMM高斯分布的平均值和差值由線性變換(線性回歸)來適應。
步驟S9(再識別)當輸出語音識別的結果時，語音識別單元3採用在步驟S8處所獲得的模型來進行再識別，並且將再識別結果存儲在識別結果存儲器6中。
(該系統的效果)
根據本發明，如上所述，對已經通過利用噪聲資料庫向語音加入噪聲而產生出的加有噪聲的語音模型進行學習。計算出在這些噪聲模型之間的距離，並且對噪聲進行聚類。根據噪聲聚類的結果，產生出具有樹形結構的語音模型。
首先，根據SNR將加有噪聲的語音聚類，然後為每個SNR條件提供樹形結構模型，並且產生出樹形結構有噪語音模型空間。在特徵提取過程中，對所要識別的輸入有噪語音進行分析以提取出特徵參數序列，並且從樹形結構有噪語音模型空間中選擇出最優模型。對所選的有噪語音模型空間進行線性變換以便進一步提高似然性。
如上所述，根據本發明的噪聲自適應系統採用了所要識別的有噪語音來使與說話者無關的語音模型適應。產生出加有噪聲的語音的樹形結構模型空間，通過向下搜尋該樹形結構來選擇最優模型，進行線性變換(線性遞歸)來產生出經過適應的模型。
本發明對由本發明系統進行的有噪模擬語音的識別效果進行了檢驗。下面將對這些試驗的實施例進行說明。
在這些試驗中所使用的語音HMM為通過採用基於樹的聚類而產生出的共享狀態、與說話者無關而與內容相關的語音HMM。採用總共25個維作為特徵數值MFCC(嘜耳頻率倒頻譜係數)12、其導數12以及功率對數的一次導數。「嘜耳頻率」為基於人耳的靈敏度的數值，並且通常用於表示聲音的可聽度水平。MFCC按如下產生對聲波數據進行離散傅立葉變換，並且將所得到的數值轉換成其對數表達式。然後，對以預定間隔採樣的生成波形的對數進行反向離散傅立葉變換。
下面將參照圖5對本系統的效果進行說明。圖5顯示出通過採用所給出的語音HMM所實現的字精確度和通過採用由根據本發明實施方案的方法所採取的語音HMM所實現的字精確度(本發明的方法)。在圖5中的縱軸表示字精確度(％)，而橫軸表示SNR(dB)。圖5中的半色調點網柱表示基準精確度，而條形柱表示本系統的精確度。
從在圖5中所示的結果中可以看出，根據本發明的方法比普通方法更有效。在該實施例中，本系統的字誤差比例比基準低36.1％。
語音模型噪聲自適應方法下面的噪聲自適應方法應用在上述噪聲自適應系統中。該方法是用來使已經通過採用淨語音數據學習的針對任意噪聲的語音模型適應在有噪環境中要識別的語音的噪聲自適應方法。該方法包括聚類步驟，用來將加有噪聲的語音聚類；語音模型空間產生步驟，用來根據在聚類步驟所進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟所產生出的樹形結構噪聲語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟所選的模型進行線性變換，從而進一步提高該模型的似然性。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以提高對輸入語音的語音模型序列估計的精確度。
在聚類步驟處，根據信噪比條件向語音加入噪聲以產生出加有噪聲的語音，並且減去加有噪聲的語音的語音倒頻譜的平均值，產生出加有噪聲的語音的高斯分布模型，並且計算出在這些加有噪聲的語音片斷之間的似然性以產生出似然性矩陣，因此提供聚類。這樣，可以實現加有噪聲的語音的聚類。
在選擇步驟處，選擇對於在參數提取步驟處所提取的特徵參數具有最高似然性的模型。通過選擇和使用具有最高似然性的模型來提高語音識別的精確度。
在選擇步驟處，從頂部向底部對該樹形結構有噪語音模型空間進行搜索以選擇出模型。通過這樣向下搜索該樹形結構，從而可以選擇最優的模型。
在線性變換步驟處，根據在選擇步驟處所選的模型來進行線性變換以便進一步提高似然性。因此，可以使似然性最大。
(語音模型噪聲自適應程序)可以提供用於進行在圖3中所示的過程的程序，該程序用來控制計算機提供與上面所述那些相同的效果。該程序為一語音識別噪聲自適應程序，它控制計算機來使已經通過採用淨語音數據學到的針對任意噪聲的語音模型適應要在有噪環境中識別的語音。該程序包括聚類步驟，用來將加有噪聲的語音聚類；語音模型空間產生步驟，用來根據在聚類步驟處所進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟處所產生出的樹形結構噪聲語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟處所選的模型進行線性變換，從而進一步提高該模型的似然性。因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以提高對輸入語音的語音模型序列估計的精確度。
在聚類步驟處，根據信噪比條件向語音加入噪聲以產生出加有噪聲的語音，並且減去加有噪聲的語音的語音倒頻譜的平均值，產生出加有噪聲的語音的高斯分布模型，並且計算出在這些加有噪聲的語音片斷之間的似然性以產生出似然性矩陣，因此提供聚類。這樣，可以實現加有噪聲的語音的聚類。
在選擇步驟處，選擇對於在參數提取步驟處所提取的特徵參數具有最高似然性的模型。通過選擇和使用具有最高似然性的模型來提高語音識別的精確度。
在選擇步驟處，從頂部向底部對該樹形結構有噪語音模型空間進行搜索以選擇出模型。通過這樣向下搜索該樹形結構，從而可以選擇最優的模型。
在線性變換步驟處，根據在選擇步驟處所選的模型來進行線性變換以便進一步提高似然性。因此，可以使似然性最大。
用於存儲該程序的存儲介質可以為半導體、存儲器、磁碟、光碟或任意其它存儲介質。
如上所述，根據本發明的權利要求1、6和11，本發明的優點在於，因為加有噪聲的語音始終用在聚類過程和模型學習過程中，所以可以實現對許多類型的噪聲數據進行最優聚類並且提高對輸入語音的語音模型序列估計的精確度。
根據本發明的權利要求2，本發明的優點在於，可以通過以下步驟將加有噪聲的語音聚類根據信噪比條件向語音加入噪聲，減去每個所產生出的加有噪聲的語音片斷的語音倒頻譜的平均值，產生出每個加有噪聲的語音片斷的高斯分布模型，並且計算出在這些加有噪聲的語音片斷之間的似然性以產生出似然性矩陣。
根據本發明的權利要求3，本發明的優點在於，可以通過選擇對於所提取的語音特徵參數具有最高似然性的模型來提高語音識別的精確度。
根據本發明的權利要求4，本發明的優點在於，可以通過從最高層開始對樹形結構有噪語音模型進行搜索來選擇出最優模型。
根據本發明的權利要求5，本發明的優點在於，可以通過根據所選模型來進行線性變換來加大似然性以提高該似然性。
權利要求
1.一種使針對任意噪聲的語音模型適應要在有噪環境中識別的語音的語音模型噪聲自適應系統，通過採用淨語音數據來學習該語音模型，該系統包括聚類部件，用於對加有噪聲的語音進行聚類；語音模型空間產生部件，用於根據由聚類部件進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取部件，用於提取出所要識別的輸入有噪語音的語音特徵參數；選擇部件，用於從由語音模型空間產生部件產生出的樹形結構有噪語音模型空間中選擇出最優模型；以及線性變換部件，用於對由選擇部件選擇的模型進行線性變換，從而使該模型提供進一步提高的似然性。
2.如權利要求1所述的語音模型噪聲自適應系統，其中所述聚類部件通過根據信噪比條件將噪聲加入到語音中來產生出所述加有噪聲的語音，減去所產生出的加有噪聲的語音的語音倒頻譜的平均值，產生出每個所產生出的加有噪聲的語音片斷的高斯分布模型，並且計算出在這些加有噪聲的語音片斷之間的似然性以產生出一似然性矩陣，從而提供一聚類結果。
3.如權利要求1或2所述的噪聲自適應系統，其中所述選擇部件選擇對於所述參數提取部件所提取的語音特徵參數提供最大似然性的模型。
4.如權利要求3所述的噪聲自適應系統，其中所述選擇部件通過從最高層向下至最低層對該樹形結構噪聲模型空間進行搜索來選擇一模型。
5.如權利要求1到4之一所述的噪聲自適應系統，其中所述線性變換部件根據由所述選擇部件選擇的模型來進行線性變換以提高似然性。
6.一種用於使針對任意噪聲的語音模型適應要在有噪環境中識別的語音的語音模型噪聲自適應方法，通過採用淨語音數據來對該語音模型進行學習，該方法包括聚類步驟，用來對加有噪聲的語音進行聚類；語音模型空間產生步驟，用來根據在聚類步驟所進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟所產生出的樹形結構噪聲語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟選擇的模型進行線性變換，從而使該模型提供進一步的似然性。
7.一種語音識別噪聲自適應程序，該程序控制計算機來使針對任意噪聲的語音模型適應要在有噪環境中識別的語音，通過採用淨語音數據來對該語音模型進行學習，該程序包括聚類步驟，用來對加有噪聲的語音進行聚類；語音模型空間產生步驟，用來根據在聚類步驟進行的聚類的結果產生出樹形結構有噪語音模型空間；參數提取步驟，用來提取出所要識別的輸入有噪語音的語音特徵參數；選擇步驟，從在語音模型空間產生步驟產生出的樹形結構有噪語音模型空間中選擇出最優模型；以及線性變換步驟，用於對在選擇步驟選擇的模型進行線性變換，從而使該模型提供進一步提高的似然性。
全文摘要
本發明公開了語音識別噪聲自適應系統、方法及程序，目的在於能夠對許多類型的噪聲數據進行最優聚類並且提高對輸入語音的語音模型序列估計的精確度。根據信噪比條件向語音加入噪聲以產生出加有噪聲的語音(S1)，從所產生出的加有噪聲的語音中減去語音倒頻譜的平均值(步驟S2)；產生出每個加有噪聲語音片斷的高斯分布模型(步驟S3)，並且計算出這些加有噪聲語音片斷的似然性以產生出一似然性矩陣(步驟S4)，從而獲得一聚類結果。選擇出最優模型(步驟S7)，並且進行線性變換以提供最大似然性(步驟S8)。因為加有噪聲的語音一直用在聚類和模型學習中，所以可以實現對許多類型的噪聲數據進行聚類並且精確估計出語音模型序列。
文檔編號G10L15/00GK1542737SQ20041002847
公開日2004年11月3日申請日期2004年3月12日優先權日2003年3月12日
發明者張志鵬, 大辻清太, 杉村利明, 古井貞熙, 太, 明, 熙申請人:株式會社Ntt都科摩, 古井貞熙

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

語音識別噪聲自適應系統、方法及程序的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法