新四季網

以自底向上方式將聲調集成到漢語連續語音識別系統中的方向、裝置和系統的製作方法

2023-10-24 04:38:57

專利名稱:以自底向上方式將聲調集成到漢語連續語音識別系統中的方向、裝置和系統的製作方法
技術領域:
本發明涉及語音識別領域。更具體地,本發明涉及以自底向上方式將聲調集成到漢語連續語音識別系統中的方法、裝置和系統。
背景技術:
現代語音識別系統依據統計模式識別的原理並且通常使用聲學模型和語言模型解碼一個代表輸入話音(例如一個語句或詞串)的觀測(也稱作聲學事件或聲學信號)輸入序列以便在指定觀測輸入序列的情況下確定最可能的語句或詞序列。換言之,現代語音識別器的功能是搜索大量潛在或候選語句並且選擇最有可能產生觀測或聲學事件輸入序列的語句或詞序列。通常,多數現代語音識別系統使用基於連續密度隱藏馬爾可夫模型(CDHMM)的聲學模型。
多數現有技術的基於HMM的語音識別系統使用

圖1所示的層次結構模擬不同層次的事件。根據語音在足夠短的時間段內(5到100毫秒之間)在統計上處於穩定狀態這一事實,各個窗口的聲學層次輸入話音被編碼成特徵向量。在語音層次上,通過隱藏馬爾可夫模型(HMM)模擬與相同語音單元(例如音素)相關的聲學特徵分段。在詞層次上,通過根據每個詞在字典中的發音連接語音HMM來構成每個詞的詞格(lattice)。在語句層次上,最終動態建立一個具有詞結點的搜索網絡並且根據當前活躍路徑和N元語言模型精減搜索網絡。根據這種自底向上結構,有關聲音、語音、詞和語法的知識可以被裝到識別系統中以便改進性能。
漢語語音識別系統基本上也是基於上述自底向上結構,就象英語和其它語言的自底向上結構那樣。為了達到較高的識別準確度和系統性能,在設計漢語連續語音識別系統時必須考慮到並且利用漢語口語的某些特徵(例如普通話,廣東話等等)。漢語是帶聲調的音節語言。每個音節被指定四或五個聲調中的一個。例如,普通話漢語中每個音節可以被指定以下四或五個聲調中的一個陰平聲(這裡稱作一聲),陽平聲(這裡稱作二聲),上聲(這裡稱作三聲),去聲(這裡稱作四聲)和中性聲或輕聲(這裡稱作五聲)。某些音節沒有五聲。在漢語中聲調對於區分含義而言有重要的作用。具有相同語音結構但具有不同聲調的音節通常表達不同的意思。因而聲調是漢語語音識別的基本要素。
幾十年來聲調識別已經成為漢語語音識別的焦點問題。一個普遍使用的方法是分別識別基音節(聲母和韻母)和聲調。通過傳統的基於HMM的方法識別基音節,例如用於英語的方法。通過使用鑑別規則區分音節的音調輪廓(pitch contour)可以識別音節的聲調。帶聲調音節的識別綜合了基音節的識別和聲調的識別。如果用於孤立音節語音識別,這種方法因各種原因而不適用於漢語連續語音識別任務。首先,在連續語音識別中,音節的邊界是不清晰的。在整個識別過程結束時才確定邊界。在聲音識別的早期階段提供音節邊界信息是非常困難的。其次,具有五聲中的一個聲調的音節的實際聲調輪廓取決於語音環境。能夠根據音調輪廓確定聲調的規則將會非常複雜。
近年來,人們為把聲調集成到漢語連續語音識別系統中付出了各種努力。通過將音調看作一個與倒譜(ceptra)或能量相同的聲學參數,這些系統對性能進行了改進。然而這些系統沒有集成如系統綜述所述的語音識別其它層次的聲調知識。換言之,語音識別過程的其它層次的聲調知識尚未被考慮到。
附圖的簡要描述以下參照附圖可以更全面地理解本發明的特徵和優點,其中圖1是示出語音識別中使用的自底向上層次結構的圖例;圖2是關於基於本發明的語音識別系統的一個實施例的模塊圖;圖3示出了在平滑處理之前測量的音調輪廓的一個例子;圖4示出了在平滑處理之後測量的音調輪廓的一個例子;圖5是圖解基於HMM的語音模型的圖例;
圖6示出了基於本發明的方法的一個實施例的流程圖;圖7示出了基於本發明的方法的一個實施例的流程圖。
具體實施例方式
在下面的詳細描述中,為了能夠透徹理解本發明,對許多具體細節進行了描述。然而本領域技術人員可以理解,即使沒有這些具體細節也能夠理解和實現本發明。
在下面的討論中,根據本發明實現一個按照自底向上結構向漢語連續語音識別系統提供聲調集成的方法、裝置、系統和機器可讀介質。根據本發明,在自底向上識別結構中在各個層次上模擬聲調知識及其影響。在聲學層次上,音調被看作是一個連續聲學變量。在一個實施例中,為了使從一個幀中得到的音調估測易於被高斯混合分布所模擬,兩個有聲部分被一個指數衰減函數連接並且加上一個隨機噪聲,而頻域濾波器被提供給其餘的閃光點(spark point)。在基於本發明一個實施例的典型實驗中,把音調特徵集成到特徵幀中使詞差錯率(WER)從9.9%降低到8.5%。在語音層次上,一個具有不同聲調的主元音被看作是不同的音素。某些輕聲音素也被加到語音集中。在三音建立階段,針對各個判決樹結點評估一組涉及聲調的問題。在根據本發明所進行的實驗中,語音層次的聲調集成使詞差錯率從8.5%降到7.8%。在詞層次上,使用一組聲調變化規則建立訓練數據的副本和解碼的詞格。詞層次上的聲調集成也降低了識別過程中的詞差錯率(在根據本發明的實驗中又降低了0.4%)。在語句層次上,某些具有輕聲的語句結束詞也被加到系統詞彙表中。
在一個實施例中,一個表示帶聲調音節語言(例如普通話漢語)中一個輸入話音的輸入信號被轉換成一組特徵向量。輸入話音包含一或多個詞並且每個詞包含一或多個音素。每個特徵向量代表一幀輸入話音並且包含一個含有對應幀的音調信息的音調特徵。根據特徵向量和一組語音統計模型確定輸入話音中包含的音素。每個語音模型代表一組帶聲調音素中的一個不同音素。具有相同的語音結構但不同的聲調的音素被認為是不同的音素並且被表示成不同的統計模型。接著根據識別的音素,一組詞統計模型和一組聲調變化規則確定輸入話音中包含的詞。在一個實施例中,每個語音統計模型均被表示成一個對應的隱藏馬爾可夫模型(HMM)。在一個實施例中,對應的HMM是一個使用高斯混合分布表示與對應HMM中各個狀態相關的觀測概率函數的連續密度HMM。在一個實施例中,通過根據其在字典中的讀音連接對應的語音HMM來構成每個詞的詞統計模型。在一個實施例中,使用平均值微分函數(AMDF)從輸入信號中取出音調參數。在一個實施例中,音調特徵包含所取出的音調數值,Mel頻率倒譜係數(Mel-frequency CepstralCoefficients MFCC),取出的音調參數的第一和第二導數。在一個實施例中,按照以下方式平滑輸入信號的音調輪廓(1)計算輸入信號中所有合法點的音調數值的分組平均(running average)值;(2)輸入信號的開始處的音調數值被定義成分組平均值加一個隨機噪聲;(3)從有聲部分到無聲部分的切換處的音調數值被定義成關於分組平均值的指數衰減函數加隨機噪聲。在一個實施例中,輸入信號通過一個頻域低通濾波器以清除輸入信號中的尖刺。本發明適用於任何漢語語音識別方案、方法和系統。然而本發明並不僅限於漢語語音識別,也可以應用於其它帶聲調音節語言的語音識別方法、方案和系統。
雖然這裡對本發明的討論以普通話漢語作為示例性帶聲調音節語言描述和解釋了本發明的技術,但本領域技術人員應當理解,本發明的技術也適用於諸如廣東話的其它漢語帶聲調音節語言和其它非漢語帶聲調音節語言。
如上所述,普通話漢語是帶聲調音節語言。普通話中有將近400個基音節(無聲調)。多數基音節可以和四個或五個聲調相關聯。因此,普通話漢語中有將近1400個帶聲調音節。根據下面示出的規則,每個音節含有一個韻母部分並且可以或不可以含有一個聲母部分音節→[聲母]韻母聲母→輔音韻母→[中音]元音[尾音]中音→元音尾音→{元音,鼻音}根據前面的描述可以理解,一個音節的聲母部分對應於一個單輔音,而一個音節的韻母部分可以是一個單元音,一個雙元音,一個三元音,一個帶鼻音結束的元音,一個帶鼻音結束的雙元音,等等。在一個基於本發明的實施例中,每個聲母和每個韻母均被看成是一個單獨的音素並且被模擬成一個對應的連續隱藏馬爾可夫模型(HMM)。
本發明基於發明人的以下觀察。從系統角度看,聲調對自底向上識別結構中所有層次上的事件均有影響。在聲學層次上,音調輪廓規定了五個詞彙聲調。在語音層次上,聲調與韻母部分,尤其是與元音或鼻音元音相關聯。並且本發明人發現一個音節的聲調信息集中表現在音節的主元音的音調行為特性上。因此,主元音的音調信息足以確定整個音節的聲調。對於連續普通話漢語,主元音附近的音調平均值和音調時間導數對於確定聲調而言都很重要。並且在音調估測的準確度和平滑度之間存在平衡,尤其是在從有聲部分到無聲部分的邊界上。在詞層次上,根據語音環境,一個音節的聲調可能發生變化。例如,當一起讀出或講出兩個三聲音節時,前一個音節的聲調會被改變成後一個音節的聲調。換言之,前一個音節的讀音受到後面環境的影響。因而一個音節的音調輪廓的環境依賴性可以被表述成相鄰主元音的音調輪廓的影響。並且,在語句層次上,不同的語句模式具有不同的輕聲結束。
根據上述觀察和自底向上集成的新概念,相應設計出一個對應的音素集合。如前所述,一個音節的每個聲母和每個韻母部分均被看作是一個單獨的音素並且同樣被加以模擬。在一個實施例中,使用一個由23個聲母和48個韻母構成的基本集合來設計基於本發明的帶聲調音素集合。沒有與聲母關聯的聲調。因而每個單獨的聲母均被模擬成一個單獨的音素。對於48個韻母,某些韻母與五個聲調相關聯,而其它韻母與不足五個的聲調相關聯(例如某些韻母只有四個聲調與之關聯,等等)。具有相同的語音結構但不同的聲調的韻母被定義和模擬成不同的音素。因而48個基韻母中的每個韻母均可以具有多達五個的對應帶聲調音素。因此,一個基本的帶聲調音素集合含有178個音素單元,其中48個基韻母中的每個韻母均具有多達五個的帶聲調音素。在一個實施例中,一些五聲單元被加到某些通常不與五聲關聯的韻母的帶聲調音素集合中。通過加入這些五聲單元,帶聲調音素集合中單元的數量從178增加到185。對於五聲單元被加入其帶聲調音素集合的那些韻母,對應的詞的帶五聲讀音也被加到讀音字典中。如上所述,在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的讀音格(pronunciation Lattice)。在一個實施例中,設計並實現9個聲調變化規則對詞層次上的聲調影響模擬如下(a)3音節詞有以下4個聲調變化規則(1)333→223(2)1*3→123(3)2*3→223(4)4*3→423在以上描述中,規則「333→223」意味著那些有3個三聲音節的詞被讀成前兩個音節為二聲而最後一個音節為三聲(「223」)。規則「1*3→123」意味著一聲音節(第一個一聲音節)與三聲音節(最後一個三聲音節)之間的任意音節均被讀成二聲音節。類似地,規則「2*3→223」意味著二聲音節(第一個二聲音節)與三聲音節(最後一個三聲音節)之間的任意音節均被讀成二聲音節。因此,規則「4*3→423」意味著四聲音節(第一個四聲音節)與三聲音節(最後一個三聲音節)之間的任意音節均被讀成二聲音節。
(b)具有2個三聲音節的詞有下面1個規則33→23這個規則意味著後面跟有另一個三聲音節的三聲音節被讀成二聲音節。
(c)具有一個一聲音節「yi1」,「qi1」,或「ba1」(拼音表示法)並且後跟一個四聲音節「bu4」(拼音表示法)的詞具有4個規則,這些實例中的一聲音節均被讀成二聲。
上述9個聲調變化規則被用於建立訓練數據的副本和解碼的讀音格。
對於語句層次上的聲調集成,存在一些未被包含在原始讀音字典中的語句結束詞。另外,這些詞在處於一個語句的結束位置時的讀音變化未被包含在原始讀音字典中。為利於語句層次上的聲調集成,這些語句結束詞及其對應的讀音變化已經被加到讀音字典中。
圖2圖解了關於基於本發明的語音識別系統200的一個實施例的模塊圖。如圖2所示,系統200包含一個模數轉換器(A/D)210,一個特徵抽取器或頻譜分析單元220,一個解碼器230,一個聲學模型240,和一個語言模型250。首先使用A/D 210對代表輸入話音的輸入信號250進行數位化。數位訊號接著被分割到通常為10、15或20毫秒的幀中。接著各個信號幀被轉換成一個被用於提取輸入信號頻譜性質的特徵的對應特徵向量。在本實施例中,特徵向量是多維向量並且有多個包含音調特徵的特徵分量。在一個實施例中,除音調值之外,MFCC,增量MFCC和增量-增量MFCC也被當作聲學特徵向量的分量。特徵抽取器單元220產生的特徵向量接著被輸入到解碼器230,而解碼器230利用聲學模型240和語言模型250確定在指定以特徵向量為特徵的聲學事件的情況下具有最高概率的語句或詞序列。在本實施例中,聲學模型240包含一個按照上述方式設計和構成的帶聲調音素集合。如上所述,具有相同的語音結構但不同的聲調的音素被認為是不同的音素。因此,48個基韻母中的每個韻母均可以具有多達五個的對應帶聲調音素。在一個實施例中,一些五聲單元被加到某些通常不與五聲關聯的韻母的帶聲調音素集合中。通過加入這些五聲單元,帶聲調音素集合中單元的數量從178增加到185。對於五聲單元被加入其帶聲調音素集合的那些韻母,對應的詞的帶五聲讀音也被加到讀音字典中。如上所述,在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的讀音格。在一個實施例中,設計並實現9個聲調變化規則以模擬詞層次上的聲調影響。前面詳細描述了這9個規則。此外為了模擬詞層次上的聲調影響,一些語句結束詞及其對應的讀音變化已經被加到讀音字典中。
再次參照圖2,在一個實施例中,使用平均值微分函數(AMDF)方法從話音信號中抽取音調參數。根據一般的理解,只能針對話音的有聲幀確定音調。音調對於靜音和無聲部分是不存在的。圖3示出了使用AMDF方法測量的一個四音節詞組的音調輪廓的一個例子。如圖3所示,在靜音幀和帶無聲輔音的幀中音調是不確定的。在這些幀中,音調的導數會變成零。在有聲部分和無聲部分的邊界上,音調的導數會變成無窮大。在兩種情況下訓練和解碼均會出現問題。在一個實施例中,使用以下平滑處理解決該問題(1)根據所有合法點計算分組平均值;(2)在說話開始時音調值被確定成分組平均值加一個隨機噪聲;(3)當話音從有聲部分變化到無聲部分時,音調被確定成關於分組平均值的指數衰減函數加上一個隨機噪聲;(4)整個信號被傳遞通過一個頻域低通濾波器以清除尖峰信號。
向無聲部分加入隨機噪聲量為了避免在音調不是重要變量的幀中出現零方差。圖4示出了在對圖3中示出的相同講話進行平滑處理之後的音調輪廓。如圖4所示,平滑後的音調是性能良好並且可以按照與倒譜相同的方式加以處理的參數。在一個實施例中,音調值的對數也被當作音調特徵的一個要素。應當注意,在音調估測的準確度和平滑度之間存在平衡,尤其是在從有聲部分到無聲部分的邊界上。
圖5是圖解基於本發明的教導在聲學模型240中被用於模擬語音單元的基於HMM的語音模型的一個實施例的圖例(例如各個聲母和帶聲調韻母被表示成一個單獨的音素)。每個單獨的語音單元均被表示或模擬成一個對應的HMM。如圖4所示,一個HMM具有一個狀態(1-5)序列集合,該集合由一個切換概率(a12,a23,a34,a45)集合和一個觀測概率或相似度(b2(o1),b2(o2),b3(o3),b4(o4),b4(o5),b4(o6))集合連接而成。每個切換概率aij表示從狀態i切換到狀態j的概率。每個觀測概率或分布bi(oj)表示從狀態i產生一個觀測向量oj的概率。因此,切換概率模擬話音的持續可變性,而輸出概率模擬頻譜可變性。因此,狀態集合,切換概率集合和輸出概率集合是被用於定義一個HMM的參數。圖2所示的HMM具有左-右拓撲。在本實施例中,各個狀態輸出分布或觀測概率函數被模擬成下面的多元混合高斯bj(ot)=k=1McjkN(ot,mjk,Vjk)]]>其中cjk是狀態j中混合分量k的權重,N(ot,mjk,Vjk)表示狀態j中第k個混合分量的均值mjk和協方差Vjk的多元高斯。
圖6示出了基於本發明的方法600的一個實施例的流程圖,其中在自底向上識別結構中各個層次上模擬聲調影響。在塊610,在聲學層次上把音調看作諸如倒譜或能量的連續變量。音調信息被從話音信號中抽取出來並且被包含成特徵向量中的特徵分量。在塊620,在語音層次上把具有相同的語音結構但不同的聲調的音素看作帶聲調音素集合中的不同音素(例如一個具有不同聲調的主元音被定義成不同的音素)。一些五聲單元也被加到某些通常不與五聲關聯的韻母部分的帶聲調音素集合中。在塊630,在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的讀音詞格。在塊640,在語句層次上把一些語句結束詞及其對應的讀音變化加到讀音字典中以模擬語句層次上的聲調影響。
圖7示出了基於本發明的語音識別方法700的一個實施例的流程圖。方法700從塊701開始並執行到塊710。在塊710,一個表示帶聲調音節語言(例如普通話漢語)中一個輸入話音的輸入信號被轉換成一組特徵向量。輸入話音包含一或多個詞並且每個詞包含一或多個音素。每個特徵向量代表一幀輸入話音並且包含一個含有對應幀的音調信息的音調特徵。在塊720,根據特徵向量和一組語音統計模型確定輸入話音中包含的音素。每個語音模型代表一組帶聲調音素中的一個不同音素。具有相同的語音結構但不同的聲調的音素被認為是不同的音素並且被表示成不同的語音模型。在塊730,根據識別的音素,一組詞統計模型和一組聲調變化規則確定輸入話音中包含的詞。在一個實施例中,通過根據其在字典中的讀音連接對應的語音HMM來構成一個詞的詞統計模型。
這裡已經結合優選實施例描述了本發明。顯然本領域技術人員根據前面的描述可以理解許多可選方案、修改、變化和使用。
權利要求
1.一種方法,包括將一個表示帶聲調音節語言輸入話音的輸入信號轉換成一組特徵向量,該輸入話音包括一或多個詞,每個詞包括一或多個音素,每個特徵向量代表一幀輸入話音並且包含一個含有對應幀的音調信息的音調特徵;根據特徵向量和一組語音統計模型確定輸入話音中包含的音素,其中每個語音統計模型均代表一組帶聲調音素中的一個不同音素,具有相同的語音結構但不同的聲調的音素被確定為不同的音素;並且根據確定出的音素,一組詞統計模型和一組聲調變化規則確定輸入話音中包含的詞。
2.如權利要求1所述的方法,其中每個語音統計模型均被表示成一個對應的隱藏馬爾可夫模型(HMM)。
3.如權利要求2所述的方法,其中對應的HMM是一個使用高斯混合表示與對應HMM中各個狀態相關的觀測概率函數的連續密度HMM。
4.如權利要求2所述的方法,其中通過根據其在字典中的讀音連接對應的語音HMM來構成每個詞的詞統計模型。
5.如權利要求1所述的方法,其中轉換包括從輸入信號中抽取音調參數。
6.如權利要求5所述的方法,其中使用平均值微分函數(AMDF)抽取音調參數。
7.如權利要求5所述的方法,其中音調特徵包括音調數值,Mel頻標倒譜係數(MFCC),取出的音調參數的第一和第二導數。
8.如權利要求7所述的方法,還包括平滑輸入信號的音調輪廓,它包括計算輸入信號中所有合法點的音調數值的分組平均值;把輸入信號的開始處的音調數值定義成分組平均值加一個隨機噪聲;和把從有聲部分到無聲部分的切換處的音調數值定義成關於分組平均值的指數衰減函數加隨機噪聲信號。
9.如權利要求8所述的方法,其中輸入信號被傳遞通過一個頻域低通濾波器以清除輸入信號中的尖峰信號。
10.如權利要求1所述的方法,其中前向-後向算法被用來訓練代表對應音素的語音統計模型參數。
12.如權利要求1所述的方法,其中關於帶聲調音節語言聲調特徵的知識在構造統計模型並且根據自底向上識別結構中的統計模型解碼話音時被用來在多個層次上模擬話音,自底向上識別結構中的多個層次包含聲學層次、語音層次、詞層次和語句層次。
13.如權利要求12所述的方法,其中在聲學層次上對應於指定音素的聲調的音調信息被看作連續聲學變量並且被包含在表示指定音素的特徵向量中。
14.如權利要求13所述的方法,其中在語音層次上具有相同語音結構但不同聲調的主元音被看作不同的音素。
15.如權利要求14所述的方法,其中在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的詞格。
16.如權利要求15所述的方法,其中在語句層次上一組具有輕聲的語句結束詞被加到用於訓練和解碼帶聲調音節語言話音的系統詞彙表中。
17.一種系統,包括一個模型資料庫,它包括一組語音統計模型,每個語音統計模型均代表一組帶聲調音素中的一個不同音素,具有相同的語音結構但不同的聲調的音素被確定為不同的音素;一個特徵抽取單元,該特徵抽取單元將一個表示帶聲調音節語言輸入話音的輸入信號轉換成一組特徵向量,該輸入話音包括一或多個詞,每個詞包括一或多個音素,每個特徵向量代表一幀輸入話音並且包含一個含有對應幀的音調信息的音調特徵;和一個解碼器單元,該解碼器單元根據特徵向量和語音統計模型進行語音識別以識別出輸入話音中包含的音素,並且根據識別出的音素,一組詞統計模型和一組聲調變化規則進行詞識別以識別出輸入話音中包含的詞。
18.如權利要求17所述的系統,其中每個語音統計模型均被表示成一個對應的隱藏馬爾可夫模型(HMM)。
19.如權利要求18所述的系統,其中通過根據其在字典中的讀音連接對應的語音HMM來構成每個詞的詞統計模型。
20.如權利要求17所述的系統,其中特徵抽取單元使用平均值微分函數(AMDF)抽取音調參數。
21.如權利要求20所述的系統,其中音調特徵包括音調數值,Mel頻標倒譜係數(MFCC),被取出的音調參數的第一和第二導數。
22.如權利要求7所述的系統,其中為了平滑輸入信號的音調輪廓,把輸入信號的開始處的音調數值定義成分組平均值加一個隨機噪聲,把從有聲部分到無聲部分的切換處的音調數值定義成關於分組平均值的指數衰減函數加隨機噪聲,其中根據輸入信號中所有合法點的音調數值計算分組平均值。
23.如權利要求22所述的系統,其中輸入信號被傳遞通過一個頻域低通濾波器以清除輸入信號中的尖峰信號。
24.如權利要求17所述的系統,其中關於帶聲調音節語言中聲調特徵的知識在構造統計模型並且根據自底向上識別結構中的統計模型解碼話音時被用來在多個層次上模擬話音,自底向上識別結構中的多個層次包含聲學層次、語音層次、詞層次和語句層次。
25.如權利要求24所述的系統,其中在聲學層次上對應於指定音素的聲調的音調信息被看作連續聲學變量並且被包含在表示指定音素的特徵向量中,在語音層次上具有相同語音結構但不同聲調的主元音被看作不同的音素,在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的詞格,在語句層次上一組具有輕聲的語句結束詞被加到用於訓練和解碼帶聲調音節語言話音的系統詞彙表中。
26.一種包括在被機器執行時使機器執行以下操作的指令的機器可讀介質將一個表示帶聲調音節語言輸入話音的輸入信號轉換成一組特徵向量,該輸入話音包含一或多個詞,每個詞包含一或多個音素,每個特徵向量代表一幀輸入話音並且包含一個含有對應幀的音調信息的音調特徵;根據特徵向量和一組語音統計模型識別輸入話音中包含的音素,每個語音統計模型均表示一組帶聲調音素中一個不同的音素,具有相同的語音結構但不同的聲調的音素被確定為不同的音素;並且根據識別的音素,一組詞統計模型和一組聲調變化規則進行詞識別以識別出輸入話音中包含的詞。
27.如權利要求26所述的機器可讀介質,其中關於帶聲調音節語言中聲調特徵的知識在構造統計模型並且根據自底向上識別結構中的統計模型解碼話音時被用來在多個層次上模擬話音,自底向上識別結構中的多個層次包含聲學層次、語音層次、詞層次和語句層次。
28.如權利要求27所述的機器可讀介質,其中在聲學層次上對應於指定音素的聲調的音調信息被看作連續聲學變量並且被包含在表示指定音素的特徵向量中。
29.如權利要求27所述的機器可讀介質,其中在語音層次上具有相同語音結構但不同聲調的主元音被看作不同的音素。
30.如權利要求27所述的機器可讀介質,其中在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的詞格。
全文摘要
根據發明的一個方面,提供一種方法,其中關於帶聲調音節語言的聲調特徵的知識在自底向上識別結構中被用來在多個層次上模擬話音。自底向上識別結構中的多個層次包含聲學層次、語音層次、詞層次和語句層次。在聲學層次上音調被看作連續聲學變量並且從話音信號中抽取的音調信息被作為特徵向量的特徵分量。在語音層次上具有相同語音結構但不同聲調的主元音被定義和模擬成不同的音素。在詞層次上使用一組聲調變化規則建立訓練數據的副本和解碼的讀音格。在語句層次上一組具有輕聲的語句結束詞被加到系統詞彙表中。
文檔編號G10L25/15GK1402851SQ00816483
公開日2003年3月12日 申請日期2000年9月30日 優先權日2000年9月30日
發明者賈穎, 顏永紅, 苑寶生 申請人:英特爾公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀