識別有調語言的系統和方法

2023-05-18 00:48:16 5

專利名稱：識別有調語言的系統和方法
技術領域：
本發明一般地涉及語音識別系統。具體來說，本發明涉及用來產生有調語言的上下文相關子音節模型並用上下文相關子音節模型來識別有調語言的系統和方法。
背景技術：
本發明涉及未決的美國專利申請，其序列號為08/316257，申請日為1994年9月30日，發明人為Hsiao-Wuen Hon、Yen-Lu Chow和Kai-Fu Lee，名稱是「含有一個集成化音調分類器的連續漢語普通話語音識別系統」，在此將其引為參考文獻。本發明還相關於未決的美國專利申請，其序列號為08/315222，申請日為1994年9月29日，發明人為Hsiao-Wuen Hon，名稱是「一種決定漢語普通話語音音節音調的系統和方法」，在此將其引為參考文獻。
近年來，語音識別系統常常被用作將數據和命令輸入到計算機和電子系統的輸入裝置。聽寫是用戶方便而有效的將數據和命令輸入到計算機和電子系統的方法。對於說象漢語普通話和日語這樣語言的人，這一點就更為正確。與西方語言不同的是，漢語不用字母，其書面語採用象形文字。共有6000多中文簡化字和10000多中文繁體字。能夠輸入如此多中文字符的鍵盤系統是極為複雜的。進而，鍵盤輸入需要對操作員進行長達數月的冗長訓練。對大多數用戶來說，通過為漢語普通話配置的鍵盤輸入命令和數據既慢又枯燥。對漢語來說，將數據和命令輸入到計算機和其它電子系統的最自然最有效的技術是聽寫。
語音識別系統已被開發出用來識別語音。這些系統被用來將命令和數據輸入到計算機系統中。在用於象羅馬或德語這樣的西方語言中，這樣的系統已達到成功的程度。然而對於漢語及其它有調語言，語音識別系統遇到了在羅馬或德語未曾遇到的獨特難題。漢語普通話語音的詞由一個或幾個音節組成。每個漢語字符通常表示一個語音音節。每個音節是一個語音結構和一個音調的組合。漢語普通話語音共有四個字音調和一個中型音調。含有相同語音結構和不同音調的音節具有不同的含義。這樣，要正確辨識一個音節，一個語音識別系統必須同時辨識音節的語音結構和音調。
每個音節包括一個韻母，可能還包括一個聲母。(一個音節的語音結構由圖1所示)。聲母是輔音，韻母由單元音或雙元音開頭。在漢語普通話中共有21個聲母和38個韻母。也有的音節只含有韻母而沒有聲母。總之，音節的聲母和韻母組成音節的語音結構。漢語普通話語音共有潛在的3990個音節(聲母和韻母的所有可能組合)。但是並非每個聲母、韻母和音調的可能組合都能構成合法音節。實際上只有大約408個合法聲母和韻母組合，和大約1229個有意義的帶調音節。
現有的漢語普通話語音識別系統一般包括一個識別音節語音結構的子系統和一個獨立的識別音節音調的子系統。兩個子系統都有缺陷，以至於漢語普通話語音識別系統達不到可以接受的水平。漢語普通話語音中有很多易混淆的音節子集合。常規系統和方法識別語音結構時，常常混淆近似音節。現有識別漢語普通話音節語音結構系統對音節的語音結構的誤識達到難以忍受的水平。進而，識別漢語普通話音節語音結構的常規技術需要大量訓練數據和大量內存。這些技術也不允許音節之間的辨識。
識別音節音調的系統的表現也不夠好。大多數音調識別系統採用短時音調分析來確定音節的音調。然而，短時音調分析不能提供足夠的解析度來準確辨識音節的音調。為克服這一困難，有些系統採用長時音調分析來辨識音節的音調。長時音調分析計算複雜性高，因而很慢。語音識別聽寫機系統必須實時使用。採用長時音調分析的語音識別難以實時。正如對現有的音調識別的討論所表現的，現有的語音識別系統假設音節的音調獨立於語音結構。
因此，現有有調語言的語音識別系統不能滿足需求。識別漢語普通話語音的系統和方法需要有更高的準確率和更快的速度。

發明內容
本發明克服了現有識別漢語普通話語音系統和方法的不足和缺陷。該系統便利地同時決定一個音節的語音結構和音調。一個語音識別系統包括一個預處理裝置，一個HMM存儲裝置，一個語音辨識裝置，以及一個語音決策裝置。
語音辨識裝置包括對應於每個韻母部分的聲母部分或偽聲母部分。對於既有聲母又有韻母的音節，聲母部分存儲聲母的文字表示，韻母部分存儲韻母的文字表示。對於僅有韻母的音節，語音辨識裝置包括一個偽聲母部分和一個韻母部分。偽聲母部分存儲偽聲母的文字表示。偽聲母表示一般在單獨韻母音節前的聲門閉塞。偽聲母大大地改善單獨韻母的識別。
HMM存儲裝置用來存儲構成漢語普通話語音音節的聲母、偽聲母和韻母模型。聲母和偽聲母的模型可能便利地依賴於可能與它們連接的韻母。類似地，韻母的模型可能便利地依賴於可能與之連接的聲母。聲母、偽聲母和韻母的模型也可能依賴於漢語普通話語音的音調。HMM存儲裝置和語音辨識裝置被耦合到語音決策裝置。語音決策裝置又被耦合到預處理裝置。語音辨識裝置從預處理裝置接收處理後的輸入。語音辨識裝置也從HMM存儲裝置接收子音節模型，並從語音辨識裝置接收合法音節。語音辨識裝置按照合法音節排列子音節模型並比較得出的音節模型與處理後的輸入。從比較中，語音決策裝置識別出輸入音節的語音結構和音調。利用上下文相關模型，語音決策裝置不但能夠更為精確地決定音節的語音結構，而且能夠決定音節的音調。這樣本發明，不需要單獨的音調分析來決定有調語言音節的音調。
模型的產生需要大量訓練數據。本發明根據能得到的訓練數據提供對模型複雜性的調整。聲母和韻母的模型可能僅依賴於相應的聲母或韻母，僅依賴於音調，或與上下文無關。本發明包括一個改善模型的平滑裝置。該平滑裝置包括LDM(即，較為細化模型)產生裝置和細化模型修正裝置。LDM產生裝置耦合到HMM存儲裝置，並從現有模型中產生粗化模型。細化模型修正裝置接收來自於LDM產生裝置的粗化模型和來自於HMM存儲裝置的模型。然後細化模型修正裝置按照粗化模型來平滑模型。細化模型修正裝置的輸出耦合到HMM存儲裝置。平滑後的模型被傳送到HMM存儲裝置以替換未平滑的模型。得出的平滑後的模型使本發明識別音節更為精確，尤其在訓練數據不足時。
根據本發明的第一方面，提供了一個用於識別一種語言的音節的語音識別系統，每個該語言的音節由一個聲母子音節和一個韻母子音節組成，該語音識別系統包括一個語音辨識裝置，用來存儲多個聲母子音節和韻母子音節的合法組合併且用於為聲母子音節和韻母子音節的每個合法組合產生合法音節信號；一個存儲裝置，用來存儲多個聲母子音節模型和多個韻母子音節模型；預處理器，用於接收數位化音節的輸入信號並且處理該數位化音節供識別之用；以及一個語音決策裝置，它用來接收經第一輸入來的一個待識別的輸入信號；經第二輸入來自語音辨識裝置的多個合法組合；以及經第三輸入來自存儲裝置的多個模型；處理每個合法的音節信號；提取和每個被辨識的聲母子音節對應的模型信號，並且辨識每個合法音節信號的韻母子音節；比較每個被提取的模型信號和輸入信號；通過選擇最佳匹配於輸入信號的模型信號，產生辨識該最佳匹配於輸入信號的模型信號的信號；以及產生辨識所述語言的音節的信號；其中，在語音決策裝置接收到輸入信號、所述多個合法組合以及所述多個模型之後，語音決策裝置根據所接收的多個合法組合從所接收的多個模型中產生附加模型，每個附加的模型包括添加到聲母子音節尾部的韻母子音節模型，把每個附加的模型與輸入信號相比較，然後產生並輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
根據本發明的第二方面提供了一個用來識別輸入信號的方法，所述輸入信號含有一種語言的一個音節，所述音節含有一個聲母子音節和一個韻母子音節，該方法包括以下步驟接收數位化音節的輸入信號；將數位化音節處理成聲母子音節和韻母子音節；接收聲母子音節和韻母子音節的多個合法組合；接收多個聲母子音節模型、偽聲母和韻母子音節模型；按照所接收的多個合法組合從所接收的多個模型產生附加模型，每個附加模型包括添加到聲母子音節模型尾部的韻母子音節模型；比較每個附加模型與輸入信號；以及產生表明最佳匹配於輸入信號的一個附加模型的一個信號。
根據第三方面，提供一個用來識別輸入信號的系統，所述輸入信號含有一種語言的一個音節，所述音節含有一個聲母子音節和一個韻母子音節，該系統包括用於接收數位化的輸入信號的裝置；將所述數位化音節處理為聲母子音節和韻母子音節的裝置；用於接收聲母子音節和韻母子音節的多個合法組合的裝置；用於接收多個聲母子音節模型、偽聲母和韻母子音節模型的裝置；用於按照所接收的多個合法組合從所接收的多個模型產生附加模型的裝置，每個附加模型包括添加到聲母子音節模型尾部的韻母子音節模型；用於比較每個附加模型與輸入信號的裝置；以及用於產生表明最佳匹配於輸入信號的一個附加模型的一個信號的裝置。

圖1是一個漢語普通話語音音節的圖形表示；圖2是一個按照本發明識別漢語普通話語音的系統方框圖；圖3是一個按照本發明構造的語音辨識裝置方框圖；圖4是一個按照本發明構造的，HMM存儲裝置方框圖；圖5是一個方框圖，表示漢語普通話語音識別系統中信號與數據的流程；圖6A是一個方框圖，表示本發明的系統中，當訓練模型存儲在HMM存儲裝置中時，數據與信號的流程；圖6B是一個按照本發明的數據存儲裝置的方框圖；圖7是一個表示本發明用於平滑模型系統的信號和數據流程的方框圖；圖8是一個按照本發明構造的，HMM存儲裝置第二實施例的方框圖；圖9是一個按照本發明表示識別單獨韻母音節方法的流程圖；圖10A和10B是表示識別漢語普通話語音音節方法的流程圖；圖11A、11B和11C是表示按照本發明識別單獨韻母音節方法的流程圖；圖12是一個表示按照本發明平滑模型方法的流程圖；圖13A和13B是表示當聲母模型依賴於韻母開頭元音時，識別漢語普通話語音音節方法的流程圖。
具體實施例方式
現請參閱圖1，該圖顯示出一個漢語普通話語音音節10圖形表示。音節10包括聲母12和韻母14。聲母12為輔音，韻母14有一元音開頭。聲母12相應於音節的聲母部分，韻母14相應於音節的韻母部分。
本發明便利地包括當確定一個音節的聲母和韻母來辨識音節的語音結構時的上下文相關成分。當辨識聲母和韻母時，本發明更為精確地確定音節的語音結構且便利地辨識了音節的音調。
現請參閱圖2，按本發明構造的，該圖顯示出一個識別漢語普通話語音系統16的方框圖。該系統16優選地包括處理器18、輸入裝置20、顯示裝置22、數據存儲裝置24和存儲器26。處理器18、輸入裝置20、顯示裝置22、數據存儲裝置24和存儲器26，通過總線28耦合於一臺馮.諾依曼體系結構計算機，例如一臺個人計算機。處理器18優選地是一臺微處理器，例如Motorola 68040；顯示裝置20優選地是一臺視頻監視器；數據存儲裝置24包括用於存儲數據的隨機存取存儲器(＂RAM＂)和只讀存儲器(＂ROM＂)，優選地是磁碟驅動器；存儲器26包括存儲數據程序指令的RAM和ROM。輸入裝置20包括鍵盤，滑鼠類型控制器，麥克風和模擬到數字(＂A/D＂)轉換器。總線28是傳送數據和命令的常規總線。在優選的實施例中，系統16是一臺在California，Cupertino的Apple計算機公司生產的MacintoshQuadra 840AV計算機系統。本領域的技術人員明白該系統16也可由IBM個人計算機或其它計算機系統實現。
存儲器26包括一個語音識別系統30，一個訓練裝置40，和一個平滑裝置42。語音識別系統30，訓練裝置40，平滑裝置42，存儲器26的組成部分將在下面分成單獨裝置討論，本領域的技術人員明白組成部分在單個的存儲空間中將佔據相鄰部分，在優選的實施例中，存儲在存儲器26的程序在被處理器18執行時完成語音識別系統、訓練裝置和平滑裝置的功能。
該語音識別系統30包括預處理裝置32、HMM存儲裝置34、語音辨識裝置36和語音決策裝置38。預處理裝置32接收來自輸入裝置20的數位化音節輸入信號並處理數位化音節以供識別。預處理裝置32採用常規方法處理輸入信號。預處理裝置32優選地對表示音節的、從輸入裝置20接收的數位訊號進行快速傅立葉變換(＂FFT＂)。預處理裝置32也可替換地對數位訊號進行線性預測編碼(＂LPC＂)。在其它備選方案中，預處理裝置32可以產生FFT或LPC的矢量量化信號。還有許多其它方法預處理數位化音節信號；本領域的技術人員會明白這些方法且這些方法可能應用在預處理裝置32中。預處理裝置32有一個輸入耦合到輸入裝置20，以便通過總線28接收數位訊號。預處理裝置32也含有一個輸出，通過總線28耦合到語音決策裝置38，並且預處理裝置32通過總線28傳送處理後的、數位訊號到語音決策裝置38。
HMM存儲裝置34存放構成漢語普通話語音可能音節的聲母和韻母的隱馬爾可夫模型。隱馬爾可夫模型被用來對語音、手寫體和其它信號建模。本領域的技術人員會明白隱馬爾可夫模型。HMM存儲裝置34將參考圖4詳盡描述。HMM存儲裝置34有一個輸出通過總線28耦合到語音決策裝置38，將模型提供給語音決策裝置38。
語音辨識裝置36存儲例如漢語普通話的有調語言聲母和韻母的所有合法組合的表示。語音辨識裝置36描述整個漢語普通話語言。語音辨識裝置36將參考圖3詳盡描述。語音辨識裝置36通過總線28耦合到語音決策裝置38。
語音決策裝置38是一個裝置，它採用存儲在語音辨識裝置36的聲母和韻母和存儲在HMM存儲裝置34的模型來確定被預處理裝置32處理過的音節的語音結構和音調。語音決策裝置38按照存儲在語音辨識裝置36的排列聲母和韻母排列從HMM存儲裝置34接收的模型。本發明優選地採用聲母和韻母的隱馬爾可夫模型。聲母的模型可以添加到韻母的模型後面構成完整的音節模型。
語音決策裝置38比較從預處理裝置32接收到的處理後的輸入與被排列後的模型，並確定最佳匹配於處理後的輸入的模型排列。語音決策裝置38採用常規技術，例如維特比搜索或動態規劃，來比較模型的排列與處理後的輸入。語音決策裝置38包括存儲數據的存儲器，因此在內部識別音節時，該存儲器可以存儲靠連接聲母和韻母子音節的模型產生的音節的模型。語音決策裝置38通過總線28耦合到預處理裝置32、HMM存儲裝置34、語音辨識裝置36和處理器18。
訓練裝置40產生漢語普通話語音聲母和韻母的模型。訓練裝置40採用存儲在數據存儲裝置24的發音作為輸入來產生模型。訓練裝置40和存儲在數據存儲裝置24的發音，將參考圖6A和6B來詳細描述。產生了模型後，訓練裝置40將它們傳送到HMM存儲裝置34。訓練裝置40通過總線28耦合到數據存儲裝置24和HMM存儲裝置34。
平滑裝置42修正在HMM存儲裝置34內的隱馬爾可夫模型，以便語音決策裝置38用它們更好地辨識音節。平滑裝置42接收存儲在HMM存儲裝置34的模型並修正模型來更好地描述漢語普通話語音的聲母和韻母。可供選擇的，平滑裝置42可以直接從訓練裝置40接收模型，平滑後，可以將模型傳送到HMM存儲裝置34。平滑裝置42包括組存儲裝置44、LDM產生裝置46和細化模型修正裝置48。組存儲裝置44、LDM產生裝置46和細化模型修正裝置48分別有一個耦合到總線28的輸入和輸出。組存儲裝置44、LDM產生裝置46和細化模型修正裝置48將參考圖7詳細討論。平滑裝置42通過總線28耦合到處理器18，HMM存儲裝置34和訓練裝置40。
現請參閱圖3，該圖顯示出語音辨識裝置36示例性實施例的方框圖。該語音辨識裝置36的實施例用於示例性的有調語言。在這個示例性的有調語言中共有3個聲母、4個韻母和2個音調。該有調語言用來容易、清楚地表示HMM存儲裝置34和語音辨識裝置36的結構和功能。本領域的技術人員明白怎樣提升HMM存儲裝置34和語音辨識裝置36以適用有更多聲母、韻母和音調以及特定合法組合的漢語普通話或任何其它實際語言。
語音辨識裝置36存儲待識別語言的所有聲母、韻母和音調合法組合。語音辨識裝置36包括多個音節部分。每個音節部分包括聲母部分，韻母部分和音調部分。音節部分的聲母部分和韻母部分一起構成一個有調語言的合法音節。音調部分存儲音節可能含有的音調表示。並非每個合法音節包含有調語言的全部音調。這樣，一個音節部分51有表示聲母i1的聲母部分50和表示韻母f1的韻母部分52。音節部分51也可以包含表示音節/i1 f1/可能含有音調的音調部分。對於含2個音調的示例語言，音調部分包括2位，01表示僅僅有T1，10表示僅僅有T2而11表示T1和T2。聲母部分50和韻母部分52成對的共同表示音節/i1 f1/。例如，i1可能是/b/而f1可能是/at/。這樣，聲母部分50和韻母部分52描述音節/bat/。音調部分114表示音節/bat/可能含有T1或T2作為音調。音節部分耦合到總線28。
如前所述，語音辨識裝置36描述示例性的語言的所有合法音節。音節部分53描述了另一個音節。音節部分53有聲母部分54和韻母部分56。聲母部分54含有i1的參考，而韻母部分56含有韻母f4的參考。繼續上述例子，i1為/b/和f4可能是/it/。聲母部分54和韻母部分56的成對描述音節/bit/。音節部分53也含有音調部分55。音調部分55包含指示可能含有音調T1或音調T2的音節/i1 f4/的指示器。
圖3表示不含聲母的音節的音節部分的優選實施例。本發明便利地對不含有聲母的音節，或稱單獨韻母採用偽聲母。按照常規，現有的語音識別系統將單獨韻母僅按韻母建模。但是人的發音系統卻不能產生僅有韻母的聲學信號。人的發音系統在單獨韻母前產生一個聲門閉塞。常規語音識別系統對識別單獨韻母有困難。本發明便利地在語音辨識裝置36中，採用偽聲母辨識聲門閉塞。偽聲母被當做聲母對待。例如，音節部分57包括存放偽聲母PI4的偽聲母部分58和韻母部分60。音節部分57包括表示僅僅有音調T2的音節/f4/的音調部分59。圖3所用的示例性語言有2個偽聲母，PI1和PI4。對於漢語普通話，本發明採用6個偽聲母。附錄A列出了優選的偽聲母及其對應韻母。偽聲母按照韻母開頭元音來與相應的韻母匹配。例如偽聲母AH_A與所有的由元音A開頭的單獨韻母匹配。語音辨識裝置36便利地提供聲母部分與韻母部分對來描述所有的合法音節。
現請參閱圖4，該圖表示按照本發明構造的HMM存儲裝置34方框圖。HMM存儲裝置34存儲在語音辨識裝置36中列出的每個聲母，韻母和偽聲母的隱馬爾可夫模型。HMM存儲裝置34包括3組模型第一組62存儲聲母的模型，第二組64存儲韻母的模型以及第三組66存儲偽聲母和單獨韻母的模型。本發明便利地在模型的細化上表現出靈活性。圖4表示本發明最為詳細的模型。然而HMM存儲裝置36，可能配置來存放粗化模型。模型的細化程度取決於能得到的訓練數據量。
現有的語音識別系統為每個聲母和韻母提供一個模型。與此相對照，本發明提供上下文相關的子音節模型來表示漢語普通話語音。模型依賴於它們相應的聲母或韻母以及音節的音調。這樣，當識別聲母時，語音決策裝置38納入與聲母成對的韻母和音節的音調作為識別的因素。現有的系統有1個模型描述示例性的語言的i1，而本發明有6個i1的模型。本發明優選地作出許多額外的比較以便在確定時包括上下文相關信息。在HMM存儲裝置34存貯的每個模型優選地是聲母、韻母和偽聲母的隱馬爾可夫模型。本領域的技術人員明白HMM存儲裝置34可存放其它形式聲母、韻母和偽聲母的模型。
語音決策裝置38從語音辨識裝置36接收可能音節並從HMM存儲裝置34接收模型。語音決策裝置38按照從語音辨識裝置36接收到的音節排列模型。例如，為了構造由音節部分51描述的音節，語音決策裝置38連接依賴於f1和T1的i1的模型與依賴於i1與T1的f1的模型。依賴於f1和T1的i1的模型68存儲在HMM存儲裝置34，而依賴於i1和T1的f1的模型80也存儲在HMM存儲裝置34。語音決策裝置38也採用含有不同音調的音節的模型。為此，語音決策裝置38連接依賴於f1和T2的i1的模型70與依賴於i1和T2的f1的模型52。注意在最詳細的例子裡，對語音辨識裝置36的每個組合產生多個模型，每個對應於該語言的一個音調。進一步要注意的是，當語音決策裝置38連接音調相關模型時，它總是連接具有相同音調相關性的模型。存儲在部分70的依賴於f1和T2的i1模型永遠不與存儲在部分80依賴於i1和T1的f1模型連接。最後，注意依賴於韻母的聲母組合當與依賴於聲母的韻母成對，是一個音節相關。換言之，等效於依賴於音節的聲母和依賴於音節的韻母。
語音決策裝置38連接聲母和韻母或偽聲母和韻母的模型產生有調語言合法音節的模型。本發明便利地採用聲母、偽聲母和韻母的隱馬爾可夫模型，因為隱馬爾可夫模型可能被連接起來構成大的結構，例如音節模型。本領域的技術人員明白怎樣連接韻母的隱馬爾可夫模型與聲母或偽聲母的隱馬爾可夫模型來構成音節的隱馬爾可夫模型。
如前所述，圖4中存儲在HMM存儲裝置34的該實施例的模型是最為詳細的子音節模型。然而本發明可能採用粗化子音節模型。例如，不需要依賴於相應的聲母或韻母的模型。在這種情況下，每個模型僅僅依賴於音節的音調。可供替換地，模型可能是音調無關但依賴於相應的聲母或韻母。最後，有些模型可能是上下文無關，或依賴於相應的聲母、相應的韻母或音調。各種可能的組合導致層次模型。父模型為上下文無關模型。在這種情況下，聲母或韻母有一個單一模型描述所有的出現的聲母或韻母。在上下文無關模型中，相應的音節聲母或韻母及音調的相關性未被建模。上下文無關模型可被改進成兩類上下文相關模型。第一類上下文相關模型僅僅依賴於音節的音調。第二類上下文相關模型僅僅依賴於相應的聲母或韻母。這兩類上下文相關模型也可合併構成更為詳細的上下文相關模型。在這種最為詳細的上下文相關模型，模型依賴於相應的聲母或韻母而且依賴於音節的音調。圖4表示這類最為詳細的上下文相關的模型。
每類更為詳細的模型比較前面粗化模型需要更大量的訓練數據來產生模型。當訓練數據有限時，使用粗化模型可能更為有利。模型上下文相關僅僅需要與組62、64和66一致。這樣，第一組62中的聲母可能僅僅依賴於音調，而第二組64中的韻母可能僅僅依賴於相應的聲母。一般來說最為細化模型更好。然而當訓練數據有限時，僅僅依賴於韻母的第一組62中的聲母，以及僅僅依賴於音調的組64中的韻母則更好。
第三組66包括數據部分，存儲對應於偽聲母的偽聲母和韻母模型。本發明將偽聲母按聲母一樣對待。例如，為構成在語音辨識裝置36中描述的音節部分57的音節，語音決策裝置38連接從HMM存儲裝置34來的偽聲母模型88，PI4(f4，T1)和韻母模型90，f4(PI4，T1)並連接從HMM存儲裝置34來的偽聲母模型92，PI4(f4，T2)和韻母模型94，f4(PI4，T2)。同層次的上下文無關和上下文相關模型像應用於聲母和韻母一樣應用於偽聲母及相應的韻母。即，偽聲母的模型可能是上下文無關，僅僅依賴於相應的韻母，僅僅依賴於音節的音調，或依賴於相應音節的韻母和音調。
圖4也表示本發明如何不用音調分析來確定音節的音調。只要音調相關模型用於聲母或韻母，語音決策裝置38從處理後的輸入與模型的比較中確定音節的音調。這樣，本發明便利地同時確定音節的語音結構和音節的音調。
現請參閱圖5，該圖顯示出在該系統16中數據流動及信號處理的方框圖。該系統16通過輸入裝置20接收音頻信號。輸入裝置20包括麥克風和A/D轉換器。麥克風接收模擬、音頻信號並將其轉化為模擬電子信號。A/D轉換器接收模擬電子信號並將其轉化為數字電子信號。A/D轉換器將數字電子信號傳送給語音識別系統30。
在該語音識別系統30中，預處理裝置32接收數字電子信號。預處理裝置32產生數字電子信號的FFT信號而且產生FFT的係數信號。預處理裝置32可替換地產生數字電子信號的線性預測編碼信號。預處理裝置32將處理後的信號傳送給語音決策裝置38。語音決策裝置38接收信號並產生信號給語音辨識裝置36來傳送可能的音節。語音決策裝置38從語音辨識裝置36接收表徵可能音節的信號並產生信號給HMM存儲裝置34來傳送聲母和韻母的模型。當語音決策裝置38從HMM存儲裝置34接收模型的信號時，語音決策裝置38按照從語音辨識裝置36接收到的音節信號，將這些模型連接到一起。語音決策裝置38靠將韻母連接到聲母後面來連接聲母和韻母。類似的，語音決策裝置38靠將韻母連接到偽聲母後面來連接偽聲母和韻母。然後語音決策裝置38比較從預處理裝置32來的處理後的信號與聲母和韻母的連接模型。語音決策裝置38採用維特比搜索或動態規劃來確定哪個連接模型最佳匹配語音信號。這樣，語音決策裝置38比較輸入信號與漢語普通話所有的合法音節模型。然後語音決策裝置38產生並輸出一個表徵連接模型聲母，韻母和音調的信號這一模型最佳匹配於從預處理裝置32接收到的信號。語音決策裝置38可以將輸出信號傳送給查找表或存儲裝置。存儲裝置可以象在常規詞處理器中一樣存儲信號。查找表也可以確定表示音節的合適字符並傳送信號給顯示裝置22以顯示選取的字符。
如上所述本發明被配置成識別漢語普通話語音的音節。音節是漢語普通話語音的基本單元，而且音節識別是語音識別的通常形式。本發明也可替換地被配置成識別更高級的語言單元，例如詞、短語、句子或任何高級單元。例如，為識別3個可能輸入的句子，語音辨識裝置36可被配置為包含表示組成每個句子的音節的部分。當語音決策裝置38從預處理裝置32接收處理後的輸入信號時，語音決策裝置38從語音辨識裝置36接收句子信號並從HMM存儲裝置34接收聲母、韻母和偽聲母的模型的信號。然後語音決策裝置38按照句子將模型連接在一起。語音決策裝置38比較從預處理裝置32接收到的輸入與連接模型並選取最佳匹配於輸入的連接模型的集合。語音決策裝置38產生並輸出表示最接近匹配輸入句子的信號。
現請參閱圖6A和6B。圖6A表示當訓練裝置40產生存儲在HMM存儲裝置34的模型時，在系統16內數據和信號流動的方框圖。訓練裝置40接收多個語音輸入，訓練裝置40為每個含有聲母、偽聲母或韻母的發音從數據存儲裝置24中產生模型。訓練裝置40可替換地從存儲器26的另一部分接收語音輸入信號。訓練裝置40接收的所有的發音有合適的語言結構，輸入訓練裝置40為它產生一個模型。例如，如果訓練裝置40產生依賴於f1和T1的一個i1的模型，那麼訓練裝置40接收含有i1，f1和T1的音節發音信號。訓練裝置40採用常規技術，例如Baum-Welch訓練算法，來產生一個隱馬爾可夫模型。訓練裝置40接收至少20個發音輸入來產生一個充分的模型。優選地，訓練裝置40接收幾百個發音輸入來產生一個模型。一旦訓練裝置40產生了一個模型，它產生一個信號將模型傳送給HMM存儲裝置34。
圖6B是一個詳盡地表示數據存儲裝置24的方框圖。數據存儲裝置24包括存貯含有共同聲母、韻母或偽聲母以及共同相關的多個發音的多個單元。單元96存儲含有i1，f1和T1的語音輸入。單元存放訓練裝置40用於產生模型的語音輸入。例如，訓練裝置40採用存儲在單元96的語音輸入來產生依賴於f1和T1的i1的模型。訓練裝置40在產生模型後，將模型傳送給HMM存儲裝置34。HMM存儲裝置34在部分68中存儲由以上例子產生的模型。語音決策裝置38採用存儲在HMM存儲裝置34的模型68來為由語音辨識裝置36的音節部分51所標識的音節建模。每個單元存儲至少20個語音輸入並優選地存儲幾百個語音輸入。示例性的語言需要在數據存儲裝置24中有36個單元。那意味著數據存儲裝置24存儲至少720個語音輸入且優選地存儲幾千個語音輸入。為產生必要的識別漢語普通話的模型，數據存儲裝置24需要幾百個單元來存放含有不同聲母、韻母、音調和聲門閉塞的語音輸入。每個單元存放至少20個語音輸入且優選地存儲幾百個語音輸入。本領域的技術人員明白如何修改數據存儲裝置24來適應漢語普通話。
現請參閱圖7。圖7表示，當系統16採用平滑裝置42修正存儲在HMM存儲裝置34中的模型時數據和信號的流動的方框圖。正如從圖6B和配合的文字可看出的，最為詳細的模型集合，依賴於聲母或韻母和音調，需要非常大量訓練數據。優選地有足夠訓練數據使訓練裝置40產生精確、魯棒的最為詳細的模型。如果沒有足夠訓練數據使訓練裝置40產生精確、魯棒的模型，模型可能不夠精確的描述該語言的聲母、韻母和偽聲母。在這種情況下，平滑裝置42可以靠粗化模型平滑它們來改進模型。
一個粗化模型有更少的上下文相關成分。例如，僅僅依賴於音調的模型或僅僅依賴於聲母或韻母的模型就比同時依賴於音調和聲母或韻母的模型更為粗化。上下文無關模型是最少相關的模型。
更為細化模型可能被任何粗化模型平滑。這樣，依賴於聲母或韻母和音調的最為細化模型，可能被僅僅依賴於聲母或韻母、僅僅依賴於音調或上下文無關的模型平滑。類似地，粗化模型甚至可能被粗化模型平滑。例如，僅僅依賴於聲母或韻母的模型可能被上下文無關模型平滑，而僅僅依賴於音調的模型可能被上下文無關模型平滑。如圖7所示，平滑裝置42從HMM存儲裝置34接收模型。LDM產生裝置46發送一個信號給HMM存儲裝置34使其產生待平滑的模型信號並把信號傳送給平滑裝置42。平滑裝置42優選地一起接收每個組中的模型。亦即，平滑裝置42接收第一組62的聲母，然後接收第二組64的韻母，然後接收第三組66相應韻母的偽聲母。平滑裝置42確定粗化模型，並用粗化模型平滑模型。然後平滑裝置42發送平滑後的模型回HMM存儲裝置34。
如圖7所示，平滑裝置42包括組存儲裝置44、LDM產生裝置46和細化模型修正裝置48。當一組模型被平滑裝置42接收，該組是被組存儲裝置44和LDM產生裝置46接收。組存儲裝置44是存放模型的數據存儲裝置，而LDM產生裝置46產生粗化模型，細化模型修正裝置48則修改該組的每個模型。
LDM產生裝置46產生粗化模型，細化模型修正裝置48將用它修正細化模型。LDM產生裝置46採用細化模型來產生粗化模型。如果平滑裝置42正在用僅僅依賴於韻母的模型平滑第一組62的聲母模型，LDM產生裝置46從第一組62的聲母中產生僅僅依賴於韻母的聲母模型的粗化模型。LDM產生裝置46靠確定有相似相關性的模型的算術平均值來產生粗化模型。繼續這個例子，模型68將被僅僅依賴於f1的i1的模型平滑。為產生僅僅依賴於f1的i1的模型，LDM產生裝置46確定模型68和模型70的算術平均值。模型68和70都是i1的，都依賴於f1，而不同之處僅僅在於它們對音調的依賴性。模型68和70的算術平均值的模型是單獨依賴於f1而與音調無關的i1的模型。類似地，為產生單獨依賴於f4的i1的模型，LDM產生裝置46確定模型76和模型78的算術平均值。結果是i1模型依賴於f4而與T1或T2無關。同樣地，LDM產生裝置46可以確定僅僅依賴於音調而與聲母或韻母無關的模型。為確定i1僅僅依賴於T1的模型，LDM產生裝置46確定模型68，72和76的算術平均值。得出i1的模型僅僅依賴於T1。LDM產生裝置46採用同樣的方法來確定上下文無關的父模型。為產生i1上下文無關的模型，LDM產生裝置46確定模型68，70，72，74，76和78的算術平均值。
LDM產生裝置46採取基於逐點的方式計算模型的算術平均值。LDM產生裝置46確定每個模型相應的點的算術平均值，得出的均值點序列是算術平均值模型也是粗化模型。
一旦LDM產生裝置46產生了粗化模型，LDM產生裝置46產生一個表示粗化模型的信號並將信號傳送給細化模型修正裝置48。細化模型修正裝置48也從組存儲裝置44接收信號表示待平滑的模型。然後細化模型修正裝置48用粗化模型平滑這些從組存儲裝置44接收到的模型，採用常規平滑技術例如線性插值或刪除插值。本領域的技術人員會明白這些技術。然後細化模型修正裝置48產生一個信號使平滑後的模型傳送給HMM存儲裝置34。HMM存儲裝置34從平滑裝置42接收信號並用從平滑裝置42接收到的平滑後的模型替換原來的模型。得到的平滑後的模型比平滑以前更為粗化，能更好的且更為魯棒的為聲母、韻母和偽聲母建模。
在可替換的實施例中，平滑裝置42不包括組存儲裝置44。模型組被LDM產生裝置46接收到並傳送給細化模型修正裝置48。細化模型修正裝置48直接從HMM存儲裝置34接收模型。
存儲在HMM存儲裝置34的模型可能被任何粗化模型、粗化模型的組合以及粗化模型的不同組合平滑。然而優選地，組62，64，或66中的模型類似的在每個組中被平滑。例如，第一組62的聲母可能僅僅依賴於音調的模型平滑，第二組64的韻母可能被僅僅依賴於聲母的模型平滑，而第三組66的偽聲母及相應的韻母可能被僅僅依賴於音調的模型和上下文無關模型平滑。粗化模型的任何其它組合是可能的。
組存儲裝置44有一個輸入耦合到總線28來從HMM存儲裝置接收信號34，並有一個輸出通過總線28耦合到細化模型修正裝置48。LDM產生裝置46有一個輸入耦合到HMM存儲裝置34和一個輸出通過總線28耦合到細化模型修正裝置48。細化模型修正裝置48有一個第一輸入耦合到組存儲裝置44，一個第二輸入耦合到LDM產生裝置46及一個輸出通過總線28耦合到HMM存儲裝置34。
現請參閱圖8，該圖表示HMM存儲裝置34的第二實施例的方框圖。圖4中的最為詳細的模型集合包括大量模型。圖8表示HMM存儲裝置34的一個實施例，其中最為詳細的模型數目比圖4中的模型數目減少了。
在最為詳細的模型集合中，聲母依賴於韻母和音調。然而韻母相關性主要由韻母開頭元音的相關性來獲取。這樣對於聲母，可用元音相關性取代韻母相關性。這減少了模型的數目。
圖8中HMM存儲裝置34包括第一組98聲母模型，第二組64韻母模型和第三組100偽聲母模型。第二組64與圖4中的相同。第一組98聲母模型包括的部分比第一組62少。參考圖3擴展到上述示例性的語言，f2為/is/而f3為/am/。通過將聲母相關性建立在韻母的頭元音上而不是整個韻母上，HMM存儲裝置34的第二實施例減少了描述聲母所需的模型數目。i1依賴於f1的模型68和模型70可能與i1依賴於f3的模型72和74組合。韻母f1和f3都由元音/a/開頭。這樣，對於聲母相關性來說，這些韻母可以被組合。得到的依賴於開頭元音/a/和音調的i1的模型為模型102和104。類似地，關於f2和f4的聲母相關性可能組合，因為它們的韻母都由/i/開頭。模型106和108是依賴於/i/和音調的i1模型。第三組100也採用開頭元音相關性而非整個韻母相關性。模型110是依賴於/i/和T1的PI1模型，而非依賴於f4和T1的PI1模型--模型88。
通過採用元音相關性，本發明減少了模型的數目和由語音決策裝置38所做的比較的數目。因為漢語普通話中韻母的數目比聲母多，這一措施大大減少了HMM存儲裝置34的大小並增加了模型的魯棒性。
現請參閱圖9，該圖描述本發明中識別漢語普通話語音的單獨韻母音節的方法。該方法由步驟200開始，在步驟200該系統16接收輸入漢語普通話語音音節的音頻信號。輸入裝置20的麥克風將音頻信號轉化成模擬電子信號。然後輸入裝置20的A/D轉換器把模擬電子信號轉換成數字電子信號。在步驟202，該語音識別系統30的預處理裝置32接收待處理的數字電子信號。預處理裝置32確定數字電子信號的FFT信號，然後確定FFT信號的矢量量化碼字。預處理裝置32也可替換地確定LPC信號而非FFT信號。下一步，在步驟204，語音決策裝置38從HMM存儲裝置34接收偽聲母和韻母的模型；語音決策裝置38按照從語音辨識裝置36接收到的音節，排列並連接模型。在步驟206語音決策裝置38比較處理後的輸入信號與排列好的模型，並在步驟208選取最佳匹配處理後的輸入信號的模型排列。這樣，在步驟206，語音決策裝置38將輸入信號不僅僅與單獨韻母模型而且與單獨韻母前表示由偽聲母表示的聲門閉塞的模型比較。在步驟210，語音決策裝置38產生並輸出表示在步驟208選取的模型排列的韻母和音調的信號，本方法結束。
現請參閱圖10A和10B，該圖表示識別漢語普通話語音音節方法的流程圖。方法由步驟300開始，系統16接收漢語普通話語音音節的輸入音頻信號。輸入裝置20的麥克風將音頻信號轉化成模擬電子信號。然後輸入裝置20的A/D轉換器把模擬電子信號轉換成數字電子信號。在步驟302，該語音識別系統30的預處理裝置32接收待處理的數字電子信號。預處理裝置32確定數字電子信號的FFT信號，然後確定FFT信號的矢量量化碼字。預處理裝置32也可替換地確定LPC信號而非FFT信號。在步驟304，語音決策裝置38選取還未選取的漢語普通話韻母。步驟304採用多次運行的方法；第一次步驟304運行時，語音決策裝置38可選取任何漢語普通話韻母。下次運行時，語音決策裝置38選取它還沒有選取的韻母。同樣的，語音決策裝置38在步驟306選取漢語普通話音調並在步驟308選取聲母。在步驟310語音決策裝置38確定是否選取的聲母、韻母和音調是漢語普通話語音的合法音節。語音決策裝置38靠比較該組合與從語音辨識裝置36接收到的漢語普通話語音音節來確定組合的合法性。如果組合為一合法音節，在步驟312語音決策裝置38選取依賴於韻母和音調的聲母模型，並選取依賴於聲母和音調的韻母模型，並將兩個模型連接在一起。語音決策裝置38從HMM存儲裝置34接收模型。然後語音決策裝置38在其中存儲連接模型。該方法從步驟312進入步驟314。如果組合不是合法音節，該方法也可從步驟310運行到步驟314。在可選的方法中，語音決策裝置38可以連接僅僅依賴於音調，僅僅依賴於相應的韻母或聲母，或上下文無關的模型。
在步驟314，語音決策裝置38確定是否有另一個還未與現在選取的韻母和音調匹配的聲母。如果有這樣一個聲母，方法回到步驟308去選取另一個還未與現在選取的韻母和音調匹配的聲母。如果沒有這樣一個聲母，方法運行到步驟316，在此語音決策裝置38確定是否有另一個還未與現在選取的韻母匹配的音調。如果有這樣一個音調，方法回到步驟306在那兒語音決策裝置38去選取另一個還未與現在選取的韻母匹配的音調。當語音決策裝置38選取一個音調時，它重置聲母使得所有的聲母與當前的韻母和剛剛選取的音調匹配。在步驟316如果沒有這樣一個音調，方法運行到步驟318，在那裡語音決策裝置38確定是否有還未與從語音辨識裝置36接收到的音節比較的韻母。如果沒有這樣一個韻母，方法回到步驟304，在那裡語音決策裝置38選取還未與從語音辨識裝置36接收到的音節比較的韻母。當語音決策裝置38選取一個韻母時，它重置聲母與音調使得所有的聲母、音調與剛剛選取的韻母組合成音節並與從語音辨識裝置36接收到的音節比較。
在步驟318如果沒有這樣一個韻母，語音決策裝置38將模型組對來構成漢語普通話語音所有的合法音節。方法繼續到步驟320，在那裡語音決策裝置38比較處理後的輸入信號與連接模型。語音決策裝置38採用維特比搜索或動態規劃來比較處理後的輸入信號與連接模型。還有許多其它技術來做比較；本領域的技術人員會明白這些技術。上下文相關性產生的比較是將整個輸入信號與整個連接模型比較，它對於上下文協同發音(聲母、韻母和音調)的聲母和韻母採用詳細的上下文相關模型。通過採用依賴於音調的模型，該方法在比較中包括額外一維的比較，即比較整個信號與不同音調的協同發音模型。這樣，採用最為細化模型，本發明在步驟320增加了3個維數的比較，使得步驟322的決策更為精確。採用粗化模型，例如僅僅依賴於音調的模型，相應的減少步驟320比較的維數。這使得步驟322的決策不太精確但比用上下文無關模型更精確。在步驟322，語音決策裝置38選取最佳匹配處理後的輸入的模型排列，並在步驟324，語音決策裝置38產生並輸出表示在步驟322選取連接模型的聲母、韻母和音調信號。該方法結束。
現請參閱圖11A，11B和11C，該圖表示識別漢語普通話語音音節方法的流程圖，它採用本發明用於識別單獨韻母的音節。方法開始步驟與圖10A所示一致。為方便起見，相同的方法步驟採用相同的號碼。第一個獨特的方法步驟為步驟318之後的步驟420。在步驟420，語音決策裝置38選取一個單獨的韻母和相應的尚未被選取的偽聲母。在步驟422，語音決策裝置38為該單獨韻母選擇一個尚未被選取的單調。下一步在步驟424，語音決策裝置38確定是否選取的單獨韻母和音調構成合法音節。語音決策裝置38比較選取的單獨韻母和音調與從語音辨識裝置36接收到的音節來完成這一決策。如果選取的單獨韻母和音調構成合法音節，方法進行到步驟426，在此語音決策裝置38將依賴於所選取的韻母和音調的偽聲母模型添加到依賴於該偽聲母和所選音調的韻母模型之後。這些模型是從HMM存儲裝置34接收到的。該方法從步驟426進行到步驟428；如果在步驟424選取的單獨韻母和音調不構成合法音節，方法也進行到步驟428。在步驟428語音決策裝置38確定是否有另一個音調還沒有與當前單獨韻母組合。如果有這樣一個音調，方法回到步驟422去選取另一個還未與單獨韻母組合的音調。在步驟428如果沒有這樣一個音調，方法繼續到步驟430，在此語音決策裝置38確定是否還有另一個單獨韻母要被分析。如果有這樣一個單獨韻母，方法回到步驟420，語音決策裝置38選取未被分析單獨韻母。在步驟430如果沒有這樣一個單獨韻母，在步驟432語音決策裝置38比較處理後的輸入信號與排列後的聲母和韻母或偽聲母和單獨韻母模型。語音決策裝置38採用與步驟320同樣的技術進行比較，例如維特比搜索。在步驟434，語音決策裝置38選取最佳匹配處理後的輸入的排列後的模型。最後在步驟434，語音決策裝置38產生並輸出表示選取的排列後的模型的偽聲母、韻母和音調的信號。該方法結束。
現請參閱圖12，該圖表示按照本發明平滑聲母、韻母和偽聲母的模型的方法流程圖。方法開始，在步驟500，平滑裝置42從HMM存儲裝置34接收模型。平滑裝置42按照組平滑模型，組為第一組62，第二組64和第三組66。平滑裝置42可以一次接收模型一個組，也可以一次接收所有的模型但按組平滑它們。在步驟502，LDM產生裝置46產生粗化模型。LDM產生裝置46從較為細化模型產生粗化模型。LDM產生裝置46通過計算含有共同相關性的相似模型的算術平均值來產生粗化模型。例如，LDM產生裝置46計算依賴於f1和T1的i1模型和依賴於f1和T2的i1模型的算術平均值來產生依賴於f1而與音調無關的i1模型。LDM產生裝置46用逐點方式計算算術平均值模型。LDM產生裝置46平均較為細化模型相應點的模型值來得到粗化模型相應點的模型值。
一旦LDM產生裝置46產生了粗化模型，它便將粗化模型傳送給細化模型修正裝置48。在步驟504，細化模型修正裝置48從組存儲裝置44接收更為細化模型並用粗化模型平滑更為細化模型。細化模型修正裝置48採用常規平滑技術來平滑更為細化模型。然後在步驟506平滑裝置42將平滑後的模型傳送給HMM存儲裝置34，並替換未平滑的模型。本方法結束。
現請參閱圖13A和13B，該圖表示按照本發明識別漢語普通話語音音節方法的流程圖。方法與圖10A和10B極為類似，為方便起見，相同的步驟採用相同的數字。與圖10A和10B相應步驟不同的第一步驟是在步驟310後、在步驟314前的步驟600。在步驟600，語音辨識裝置38連接依賴於音節的音調和相應韻母開頭元音的聲母模型，與依賴於音節的音調和聲母的韻母模型。與圖10A和10B相應的步驟不同的其它方法步驟為步驟602，在此語音決策裝置38比較處理後的輸入與排列後的模型。在步驟602，語音決策裝置38比較處理後的輸入與聲母模型，該聲母模型僅僅依賴於音節的音調和與該聲母模型相接的韻母開頭元音。
附錄A偽聲母韻母音節AH_A A_1 A1AH_A A_2 A2AH_A A_3 A3AH_A A_4 A4AH_A A_5 A5AH_A AI_1AI1AH_A AI_2AI2AH_A AI_3AI3AH_A AI_4AI4AH_A AN_1AN1AH_A AN_3AN3AH_A AN_4AN4AH_A ANG_1 ANG1AH_A ANG_2 ANG2AH_A ANG_4 ANG4AH_A AO_1AO1AH_A AO_2AO2AH_A AO_3AO3AH_A AO_4AO4EH_E E_1 E1EH_E E_2 E2EH_E E_3 E3EH_E E_4 E4EH_E EN_1EN1EH_E EN_4EN4EH_E ER_2ER2EH_E ER_3ER3EH_E ER_4ER4
OH_O OU_1 OU1OH_O OU_3 OU3OH_O OU_4 OU4WH_U UA_1 WA1WH_U UA_2 WA2WH_U UA_3 WA3WH_U UA_4 WA4WH_U UAI_1 WAI1WH_U UAI_3 WAI3WH_U UAI_4 WAI4WH_U UAN_1 WAN1WH_U UAN_2 WAN2WH_U UAN_3 WAN3WH_U UAN_4 WAN4WH_U UANG_1 WANG1WH_U UANG_2 WANG2WH_U UANG_3 WANG3WH_U UANG_4 WANG4WH_U UI_1 WEI1WH_U UI_2 WEI2WH_U UI_3 WEI3WH_U UI_4 WEI4WH_U UN_1 WEN1WH_U UN_2 WEN2WH_U UN_3 WEN3WH_U UN_4 WEN4WH_U UENG_1 WENG1WH_U UENG_3 WENG3WH_U UENG_4 WENG4WH_U U0_1 W01WH_U U0_3 W03WH_U U0_4 W04
WH_U U_1 WU1WH_U U_2 WU2WH_U U_3 WU3WH_U U_4 WU4YH_I IA_1 YA1YH_I IA_2 YA2YH_I IA_3 YA3YH_I IA_4 YA4YH_I IAN_1 YAN1YH_I IAN_2 YAN2YH_I IAN_3 YAN3YH_I IAN_4 YAN4YH_I IANG_1YANG1YH_I IANG_2YANG2YH_I IANG_3YANG3YH_I IANG_4YANG4YH_I IAO_1 YAO1YH_I IAO_2 YAO2YH_I IAO_3 YAO3YH_I IAO_4 YAO4YH_I IE_1 YE1YH_I IE_2 YE2YH_I IE_3 YE3YH_I IE_4 YE4YH_I I_1 YI1YH_I I_2 YI2YH_I I_3 YI3YH_I I_4 YI4YH_I IN_1 YIN1YH_I IN_2 YIN2YH_I IN_3 YIN3YH_I IN_4 YIN4
YH_I ING_1 YING1YH_I ING_2 YING2YH_I ING_3 YING3YH_I ING_4 YING4YH_I IONG_1YONG1YH_I IONG_2YONG2YH_I IONG_3YONG3YH_I IONG_4YONG4YH_I IU_1 YOU1YH_I IU_2 YOU2YH_I IU_3 YOU3YH_I IU_4 YOU4VH_V VV_1 YU1VH_V VV_2 YU2VH_V VV_3 YU3VH。VVV_4 YU4VH_V VVAN_1YUAN1VH_V VVAN_2YUAN2VH_V VVAN_3YUAN3VH_V VVAN_4YUAN4VH_V VVE_1 YUE1VH_V VE_4 YUE4VH_V VVN_1 YUN1VH_V VVN_2 YUN2VH_V VVN_3 YUN3VH_V VVN_4 YUN權利要求
1.一個用於識別一種語言的音節的語音識別系統，每個該語言的音節由一個聲母子音節和一個韻母子音節組成，該語音識別系統包括一個語音辨識裝置，用來存儲多個聲母子音節和韻母子音節的合法組合併且用於為聲母子音節和韻母子音節的每個合法組合產生合法音節信號；一個存儲裝置，用來存儲多個聲母子音節模型和多個韻母子音節模型；預處理器，用於接收數位化音節的輸入信號並且處理該數位化音節供識別之用；以及一個語音決策裝置，它用來接收經第一輸入來的一個待識別的輸入信號；經第二輸入來自語音辨識裝置的多個合法組合；以及經第三輸入來自存儲裝置的多個模型；處理每個合法的音節信號；提取和每個被辨識的聲母子音節對應的模型信號，並且辨識每個合法音節信號的韻母子音節；比較每個被提取的模型信號和輸入信號；通過選擇最佳匹配於輸入信號的模型信號，產生辨識該最佳匹配於輸入信號的模型信號的信號；以及產生辨識所述語言的音節的信號；其中，在語音決策裝置接收到輸入信號、所述多個合法組合以及所述多個模型之後，語音決策裝置根據所接收的多個合法組合從所接收的多個模型中產生附加模型，每個附加的模型包括添加到聲母子音節尾部的韻母子音節模型，把每個附加的模型與輸入信號相比較，然後產生並輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
2.權利要求1的語音識別系統，其中語音辨識裝置為聲母子音節和韻母子音節的每個合法組合存儲一個合法音節信號；語音決策裝置處理每個合法音節信號，對於每個合法音節信號提取相應於每個辨識出的聲母子音節和辨識出的韻母子音節的模型信號，將每個提取出的模型信號與輸入信號相比較，並產生一個表示該語言一個音節的信號。
3.權利要求2的系統，其中語音決策裝置，通過選取與輸入信號最佳匹配的模型信號，產生一個表示與輸入信號最佳匹配的模型信號的信號。
4.權利要求1的語音識別系統，其中存儲裝置存儲依賴於韻母子音節的一個聲母子音節模型；以及語音決策裝置，通過選取和提取來自於存儲裝置、匹配於辨識出的聲母子音節且依賴於辨識出的韻母子音節的一個聲母子音節模型信號，並通過選取和提取匹配於辨識出的韻母子音節的一個韻母子音節模型信號，來提取相應於辨識出的聲母子音節的模型信號，並提取相應於辨識出的韻母子音節的模型信號。
5.權利要求1的語音識別系統，其中存儲裝置存儲依賴於聲母子音節的一個韻母子音節模型；以及語音決策裝置，通過選取和提取來自於存儲裝置、匹配於辨識出的聲母子音節的一個聲母子音節模型信號，並通過選取和提取依賴於辨識出的聲母子音節的一個韻母子音節模型信號，來提取相應於辨識出的聲母子音節的模型信號，並提取相應於辨識出的韻母子音節的模型信號。
6.權利要求1的語音識別系統，其中細化模型修正裝置按照一個粗化模型信號通過平滑模型信號來修正一個模型信號。
7.權利要求1的語音識別系統，其中較為細化模型產生裝置依據模型信號的均值來決定一個粗化模型。
全文摘要
一個漢語普通話語音識別系統包括預處理裝置(32)，HMM存儲裝置(34)，語音辨識裝置(36)和語音決策裝置(38)。語音辨識裝置包括表示在單獨韻母構成音節之前的聲門閉塞的偽聲母。HMM存儲裝置存儲構成漢語普通話語音音節的聲母、韻母和偽聲母的上下文相關模型。這些模型可能依賴於相應的聲母或韻母以及音節的音調。語音決策裝置按照語音辨識裝置中的音節連接聲母和韻母以及偽聲母和韻母。然後語音決策裝置比較音節的輸入信號和連接模型來決定音節的語音結構和音節的音調。該系統還包括用來平滑模型以使識別更具魯棒性的平滑裝置(42)。該平滑裝置包括LDM產生裝置(46)和細化模型修正裝置(48)。
文檔編號G10L15/00GK1542735SQ200410004068
公開日2004年11月3日申請日期1996年1月23日優先權日1995年1月26日
發明者H·W·康, B·S·袁, H W 康, 袁申請人:蘋果電腦公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

識別有調語言的系統和方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法