新四季網

感知語音特徵話語識別系統及方法

2023-05-17 08:45:31

專利名稱:感知語音特徵話語識別系統及方法
技術領域:
本發明總地涉及自動語音識別系統,及更具體地涉及一感知語音的處理及不變化的以元音為基礎的語音特徵方式(regime),以實現精確及強健(robust)的自動話語識別。
背景技術:
現代自動話語識別(ASR)系統已發展30年以上且已有可觀的進步。然而,仍存在兩個顯著的問題強健度問題通常涉及在說話環境中的不利條件,例如背景噪音、語音失真、及個人的發音強健度的影響,及精確度問題,涉及輸入語音的誤認。解決這些問題一般需要非常昂貴的硬體花費及空間,且因此一般通常是不可實行的。
對於強健度的問題,已有許多嘗試方法利用電子及機械裝置以濾除噪音,改良信噪比及提高信號增益,但是這些系統具有計算複雜度(例如增加噪音的複合模型頻譜)及檢測器設置的不靈活性(例如消去噪音的麥克風)的問題。相對於單純機械定向的噪音感知,通過人類的話語感知是相對清晰的,在不佳的環境中可實現高識別精確度。例如,對於低於20 dB的輸入SNR,常規的ASR系統的識別精確度被顯著地降低,但是人類可容易地識別信號性質低達0 dB SNR的話語。當吵雜時,信號失真有時造成人類的嚴重話語誤辨(除非信號本身的振幅太低),及個人發聲強健度特性(至少對說母語者而言)一般不會造成顯著的感知問題。因此,已進行許多嘗試以發展話語識別系統來模仿主要為兩種形式的人類的話語感知。第一種是仿製人類聽覺系統的功能性(例如電子耳蝸的基底膜及發育),但此系統因為來自神經系統及未知的聽神經核之間的交互作用的多個反饋路徑而被複雜化,使得這些嘗試理論上是無瑕的但實踐中是受到限制的。第二種嘗試利用人工神經網絡(ANN)以抽取話語特徵、處理動態非線形話語信號,或與統計識別器組合。但是ANN系統具有龐大運算要求的缺點,使得大的詞彙系統不實用。
所有ASR皆要求使用頻譜分析模型以使聲音信號參數收化,以致於與參考頻譜信號的比較可用於進行話語識別。線形預測編碼(LPC)在具有所謂的全極(all-pole)模型化約束的話語結構上進行頻譜分析。此為一般以Xn(eiω)表示的頻譜表示法,其是約束成σ/A(eiω)形式,其中A(eiωU)為如下所述的具有z-變換的pth次多項式A(z)=1+a1z-1+a2z-2+...+apz-pLPC頻譜分析單元的輸出為係數(LPC參數)的矢量,其參數地界定全極模型的頻譜,此模型在話語取樣幀的時間周期上與信號頻譜最匹配。現有的話語識別系統一般是利用具有全極模型約束的LPC。然而,在全極頻譜的極位置通常通過在波谷區段的噪音的出現受到影響,此噪音的出現若顯著的話,可顯著地使信號劣化。
普通話涵蓋數萬個各別的字符,其各自發音為一單音節詞,從而提供ASR系統的獨特基礎。然而,普通話(及實際上中文的其他方言)為一種具有以四種詞彙音調之一或一自然音調發音的各別字音節的音調語言。存在408個基本音節及考慮到音調變化,總共有1345個不同的音調音節。因此,獨特字符的數目約為發音的數十倍,使得發生許多僅可依據話語內容解析的同音字。基本的音節各自包含一輔音(起始音)音素(總共21個)及元音(vowel)(末尾音)音素(總共37個)。常規的ASR系統首先利用不同的處理技術檢測輔音音素、元音音素及音調。接著,為了增進識別精確度,選擇一組較高可能性的候選音節,及將此組候選音節與最後選擇的內容核對。現有技術中已知大部分的話語識別系統主要是依賴元音識別,因為已發現元音比輔音的差異性大。因此,精確的元音識別最能精確進行話語識別。

發明內容
本發明為一種用於精確及強健的話語識別的完整系統及方法,它們以將三種感知處理技術應用至話語的傅立葉頻譜為基礎,以通過將感知頻譜投射至一組參考的元音頻譜矢量以供輸入至話語識別器來實現清晰的感知頻譜及該感知頻譜的精確識別。本發明包含一感知話語處理器,用於感知地處理輸入的話語頻譜矢量以供產生一感知頻譜;一存儲裝置,用於存儲多個參考頻譜矢量;及一語音特徵映射器,其與該感知話語處理器及該存儲裝置耦合,用於將該感知頻譜映射至該多個參考頻譜矢量。
附圖簡要說明

圖1為顯示根據本發明的話語識別系統的各個步驟及元件的方框圖;圖2為說明遮蔽音調及通過遮蔽音調產生的遮蔽器的時域圖;圖3為最低可聽見區域(MAF)及等響度曲線的頻域圖;圖4為顯示頻率標度及美-標度之間關係圖;圖5為顯示根據本發明的感知特性的序列及處理以產生感知頻譜的流程圖;圖6(a)為根據本發明的普通話元音″i″的傅立葉頻譜,(b)顯示遮蔽效應的結果,(c)顯示MAF處理的結果,以及(d)顯示美-標度再取樣的結果;圖7為根據本發明測量識別率對信噪比(SNR)的實驗圖;圖8為說明根據本發明的遮蔽勝利者全取(Winner-Take-All)電路800的實施例的示意圖;圖9為說明根據本發明的用於產生相對於不同電壓的電流的分段線形電阻器PWLn;圖10為說明根據本發明的遮蔽器的電流輸出的圖形;圖11為說明根據本發明的通過畫出對應至不同PWLs的節點電壓的包絡(envelope)抽取的圖形;圖12為根據本發明的一具體實施例的單一遮蔽WTA單元的整體結構概要圖;
圖13為根據本發明的說明差異的靜態(stationary)元音″i″及非靜態元音″ai″的頻譜圖;圖14為根據本發明的非靜態元音″ai″的美-標度頻率表示的頻譜;圖15(a)顯示投射類似性與沿著具有預定加權數的參考矢量c(k)的方向的輸入矢量x的投射成正比;以及圖15(b)顯示在頻譜上類似的參考元音″i″及″iu″的情況;圖16(a)為說明投射類似性的矢量圖,及圖16(b)及圖16(c)說明根據本發明的相對投射類似性;圖17為根據本發明的普通話元音″ai″的語音特徵輪廓圖;圖18(a)顯示相對於元音″i″(深色點)及元音″iu″(淺色點)的a(8)(縱軸)及對a(6)(橫軸)的投射類似性;圖18(b)顯示投射類似性(無相對投射類似性)及對於相同元音的參考頻譜的本發明語音特徵方案的可辨別性的比較;圖19為根據本發明具有λ作為一參數的″iu″語音特徵相對於″i″語音特徵的圖;圖20為根據本發明的對於添加白噪聲至輸入的話語信號而非添加至任何訓練組的實驗的識別率相對於SNR的圖;圖21為根據本發明的利用九個普通話元音及投射類似性作為輸入的三個噪音話語測試的實驗的識別率相對於SNR結果的圖;圖22為根據本發明的外部識別率(%)(使用不同的說話者)相對於內部識別率(%)(使用單一說話者)的圖;以及圖23為根據本發明的噪音話語識別率(%)(環境噪音)相對於內部識別率(%)(其中具有較理想的收聽條件)的圖。
具體實現方式本發明的基本觀念出自人類話語及感知作用的心理學及生理學。更明確地,噪音及聲音的人類感知作用及其差異性至少部分是人類話語的人類生理學感知作用的函數。本發明利用話語識別的心理學方面的感知頻譜及生理學方面的語音特徵狀況。這些因素組合成可同時實現強健性及精確性的自動話語識別系統。圖1為本發明的較佳具體實施例的方框圖,顯示話語識別系統的各個步驟及元件。取樣話語101被輸入快速傅立葉變換(FFT)分析儀111,其輸出取樣話語的傅立葉頻譜,此傅立葉頻譜接著輸入至感知話語處理器112,其輸出一感知頻譜103,此感知頻譜接著輸入至語音特徵映射器113,其可輸出一語音特徵,此語音特徵接著輸入至連續HMM識別器114。感知話語處理器包含遮蔽操縱裝置121、最大可聽見的區域(MAF)曲線儀122,以及美-標度再取樣器123。語音特徵映射器113包含投射類似性發生器131及相對投射類似性發生器132,其接著輸入至選擇器133,其在各個對應至輸入頻譜矢量(是否具有帶有超過一個的參考頻譜矢量的高投射類似性,在下文中更完整地描述)的頻譜字符的輸出之間選擇。
自動話語識別系統取樣話語信號的分量波的振幅的離散傅立葉變換運算的話語頻譜的取樣點。通過擴音器產生的話語波形的參數化是以任何波可通過簡單的正弦及餘弦波的組合所代表的事實為基礎;波的組合最佳是由反傅立葉變換獲得g(t)=-G(t)ei2ftdf]]>其中傅立葉係數是通過傅立葉變換獲得G(f)=-g(t)e-i2ftdt]]>其給出在頻率f下,波的分量(振幅)的相對強度,在頻率空間中的波頻譜。因為矢量亦具有分量,其可通過正弦及餘弦函數代表,話語信號亦可通過頻譜矢量描述。對實際計算而言,使用離散傅立葉變換G(nN)=k=0N-1[g(k)e-i2knN]]]>其中k為各個取樣值的放置次序,τ為讀取值之間的間隔,以及N是讀取值的總數(取樣大小)。取樣話語101是通過″取樣″話語波形所產生,該「取樣」是通過在波頻譜上取出足量的點以便利用FFT進行足夠精確的振幅計算。快速傅立葉變換(FFT)分析儀111通過使用離散傅立葉變換及有效地採取一是列的捷徑以產生波的傅立葉頻譜102,該捷徑是自三角函數的循環性導出的遞歸量的觀測值為基礎,其容許一計算的結果可用於另一計算,從而降低所需計算的總數。
利用於遮蔽操縱裝置121的遮蔽效應為觀察到的現象,該現象為某些聲音當有其他暫時且頻譜上相近的較大聲音時變成無法聽見。遮蔽效應可通過人類主觀的反應來測量。圖2為頻域圖,顯示通過1kHz、80 dB純音調(小圓200)產生的遮蔽音調的振幅(實線201)。任何低於實線101的信號將為無法聽見的且若頻率接近遮蔽音調,將更嚴重地受到限制,限制作用朝向高頻率較大。圖3為最小可聽見區域(MAF)的頻率域圖,低於該最小可聽見區域則聲音信號太弱而無法被人感知(虛線300)及相等的響度曲線301、302、303、304及305。為了將客觀的聲音信號振幅轉譯成人類主觀的響度,信號的特定頻率分量的振幅必須被重正規化成如下述的MAF曲線L(dB)=M(dB)-MAF其中L和M分別為聲音信號的頻率分量的響度及振幅,以及MAF為MAF在該頻率下的值。在本發明的另一具體實施例中,一給定頻率分量的振幅被經重正規化成所有相等的響度曲線301等。為了描述人類主觀的音高感覺,頻率標度被調整成感知頻率標度,稱為美-標度。在美-標度中,低頻率頻譜帶比高頻率頻譜帶顯著。圖4為顯示由下式表示的赫茲(或頻率)標度及美-標度之間關係的圖美=2595×log(1+f/700)其中f為信號頻率。
在本發明的一具體實施例中,上述感知特徵的序列及處理以產生感知頻譜被顯示於圖5的流程圖中。步驟501為輸入至步驟502的FFT產生結果,其去除聲音信號的所有頻率分量,該聲音信號是根據聲音信號的先前及目前幀中最後的遮蔽器通過較響的鄰近聲音所掩蓋。步驟503為根據MAF曲線的聲音信號的各個頻率分量的振幅的重正規化及步驟504為頻率分量通過再取樣轉換成美-標度。步驟的順序是為了計算效率而設計且對聽覺通路而言不需要是相同順序。熟悉這項技術人員應可了解步驟501、502、503,及504的任何次序是涵蓋在本發明的預期範圍內。步驟501、502、503,及504的結果如圖6所示,其中(a)為普通話元音「i「的傅立葉頻譜,(b)為步驟502遮蔽效應的結果,(c)為步驟503的MAF處理的結果,及(d)為美-標度再取樣的結果。圖6(b)顯示遮蔽效應去除位於400Hz至2kHz之間的大多數頻率分量,大幅度地減少待處理的信息量及去除顯著量的背景噪音。圖6(c)顯示低及高頻率分量被顯著地衰減及圖6(d)顯示根據本發明的較佳具體實施例的例示元音″i″的感知頻譜。在另一具體實施例中,低頻分量,其帶有最多的元音信息,比其他頻率更精細地被取樣。最終的感知頻譜僅保留頻譜的包絡,以致於單獨傳送關於發音部位的形狀的重要信息。音高信息亦有利地去除,因為其對於元音識別並非必要。步驟502,遮蔽效應,不同於現有的全極(all-pole)頻譜模型。全極(all-pole)模型在頻譜中產生凹面平滑的谷形,而本發明則產生尖銳的邊緣。當頻譜由噪音所汙染時,在全極頻譜中的極的位置一般透過谷區域中噪音的出現而被影響。在本發明中,大部分谷形區域的噪音是通過遮蔽器去除,因此實現較清楚的信號。
圖7為測量識別率對信噪比(SNR)的實驗圖。與FFT頻譜包絡曲線(SE)比較,感知頻譜曲線(PS)造成顯著較低的SNR及較高的識別率。遮蔽效應(遮蔽)及MAF重正規化及遮蔽本身亦顯著地增進識別率及與SE相比減少噪音。
噪音遮蔽為一現象,從而當有一暫時的及頻譜上鄰近較響度的音調出現時,較弱的音調變成不可聽見的。已知聽覺神經原是以各自的共鳴頻率的次序(嗜張力(tonotopic)組織)設置,以致能抑制對應於側邊聽神經原的抑制作用的鄰近頻率分量的感知作用。神經原的活性依賴於神經原的輸入以及鄰近神經原的抑制作用及刺激作用。具有較強輸出的神經原將經由突觸連接作用而抑制側邊的鄰近神經原。假設神經原i具有最強的輸入刺激,神經原i將接著抑制其鄰近神經原最多以及刺激其本身最多。因為在此區域中的其他神經原與神經原i是非競爭性的(″啞的″),僅有神經原i產生輸出。此生存下來的神經原i在所謂的勝利者全取(Winner-Take-All(WTA))的神經網絡稱為″勝利者″,此神經網絡合理地僅延伸至定域化區域,因為對更遠的神經原而言,交互作用變得較弱。WTA網絡的「總體」模型為一電路,具有n個神經原,各自由兩個nMOS電晶體代表,所有的都耦合在一節點處。當輸入刺激利用至電晶體的電流以平行的方式刺激時,節點的電壓電平依據於具有最高電流輸入的電晶體(神經原)而定。在平衡中,偏壓電流流經有效地抑制所有其他神經原的輸出電流的勝利者神經原。通過分離具有串聯的電阻器的電晶體,及偏壓各個電晶體,電流可被定域化。
圖8說明根據本發明的勝利者全取電路800的一具體實施例。電流源Ik輸入電流至nMOS電晶體對T1k、T2k,產生電晶體電壓Vk,及節點電壓VCk。成片段的線性電晶體PWLn被串聯耦合於節點801、802、803之間,這些節點被耦合至連接至二極體的nMOS電晶體T3k。成片段的線性電晶體PWLn產生如圖9所示的電流相對於不同電壓圖,且產生所觀察到的遮蔽效應的非對稱抑制特性(參見圖1)。所進行的實驗利用一256單元(神經原/電晶體對)SPICE刺激。圖10為根據本發明的遮蔽器的電流輸出圖,該電流輸出是通過簡單的音調輸入至700nA的神經原編號30及100nA至其他單元而生成的,其中可實現所觀察到的遮蔽效應的不對稱性。輸入至本發明的元音頻譜產生勝利頻譜分量(最高輸出電流),其並非僅抑制鄰近頻譜分量,亦吸收鄰近的偏壓電流,因此增加「勝利者」擁有的輸出電流及增加共振峰抽取的有效性。「共振峰″是定義特徵(在聲音頻譜中的波峰)並因此愈顯著者,話語識別愈佳。再者,分量被清楚地量化,各自為基頻的諧波。用於分辨不同音素的信息被攜載在話語頻譜的包絡中。本發明的遮蔽WTA系統進一步自輸入的話語中抽取頻譜包絡。圖8中的節點電壓VCk呈現輸入電流Ik的平滑頻譜包絡。若所討論的神經原對應至頻譜谷形,接著神經原的電流輸出將通過其鄰近波峰所抑制,但節點電壓將也增加(如上述),因此可實現對應於輸入頻譜的包絡的以平滑節點電壓。圖11顯示包絡抽取。實線的曲線為對應至不同PWL的節點電壓及虛線曲線為無阻抗處。
圖12為根據本發明的一具體實施例的單一遮蔽WTA單元的概念示意點。三個nMOS電晶體M1、M2及M3,一PWL R電阻器,一電壓緩衝器,MOS電容器MS及兩電流鏡MI1及MI2。在一編程階段中,輸入電壓被存儲在MOS電容器M5;M4轉換電壓成電流,以供經由電流鏡MI1輸入。在操作中,電壓輸出通過單位增益緩衝器緩衝,並接著耦合至輸出總線。輸出電流通過電流鏡MI2被複製並傳送至電流輸出總線。輸出電流接著通過線形接地電阻器PWL R轉換成電壓。PWL R具有對電流方向改變敏感的電阻(圖9),感知遮蔽曲線(圖2),以及向左電阻相對於向右電阻的比率可達100。兩個nMOS電晶體M1及M2作為用於兩電流方向的無源電阻器,具有一比較器COMP在M1及M2之間切換,依電壓降的符號而定(通過柵壓調整這些電阻)。本發明的該具體實施例是利用支持電路(為了穩定性、信號增益,及避免洩流),在UMCTM0.5微米雙-多雙-金屬(ouble-poly double-metal)CMOS過程中實現的。電壓輸出產生頻譜包絡及電流輸出產生頻譜共振峰。利用本發明的遮蔽WTA電路,元音″ai″的共振峰可清楚地由頻譜中看出,甚至是在輸入信號中具有增添的噪音情況下。
在本發明的遮蔽WTA網絡的較佳具體實施例中,以模擬平行處理系統被較有利地利用以與其他ASR系統的其他元件整合。例如,帶通濾波器層被耦合至上遊以致能提供輸入至遮蔽WTA網絡。
語音特徵映射器113(圖1)包含投射類似性發生器131及相對投射類似性發生器132,它們饋給語音特徵發生器133,後者產生用於根據本發明的較佳具體實施例的話語識別抽取的語音特徵。語音特徵抽取是基於人類話語的生理學(相對於基於人類話語的心理學方面的上述感知頻譜)。當人類說話時,空氣是由肺部推出以刺激聲帶。發音部位接著根據所欲發出的聲音形成壓力波。對於一些元音而言,發音部位的形狀在整個清晰發音過程中保持未改變,以致於頻譜形狀及時呈現靜態。對其他元音而言,清晰發音由發音部位的形狀開始,其逐漸地改變,且接著定位至另一形狀。對於靜態元音而言,頻譜形狀確定音素的識別及這些形狀被用作為語音特徵映射中的參考頻譜。然而,非靜態元音,一般具有兩或三個參考元音區段及在這些元音之間的過渡區段。圖13為靜態元音″i″及非靜態元音″ai″的頻譜,說明差異。圖14為非靜態元音″ai″的頻譜及美-標度頻率表示,顯示具有類似於元音″a″的頻譜的初始相,位移至類似於元音″e″的頻譜及最後定位在類似元音″i″的頻譜。本發明的較佳具體實施例利用9個靜態元音以作為參考元音,以形成所有37個普通話元音的基礎。表1顯示37個普通話元音音素及9個參考音素。9個參考音素的頻譜是由c(i)代表,其中i=1、2、...9及各自為通過平均一訓練組的特定參考元音的所有幀而計算的64-維量矢量(或在反傅立葉變換中的波分量)。
為了減少饋給CHMM識別器114的數據維量,在本發明的一具體實施例中,語音特徵映射器113自64-維量的頻譜矢量產生9個特徵。語音特徵映射器113首先計算輸入頻譜對9個參考頻譜矢量的類似性,接著計算另一組介於輸入頻譜與72對參考頻譜矢量之間的72個相對類似性。通過組合這些類似性可實現最後一組的9個語音特徵。不同於常規的分類方案,其將輸入頻譜分類成參考頻譜中的一者,本發明定量地規格化相對於9個參考頻譜的輸入頻譜的形狀(亦規格化發音部位的形狀)。本發明的語音特徵映射為經由類似性測量的特徵抽取(或維量降低)的方法。本發明的較佳具體實施例利用基於投射的兩種形式的類似性測量;投射類似性及相對投射類似性。
圖15(a)顯示投射類似性,與沿著具有預定加權數的參考矢量c(k)方向的輸入矢量x的投射成正比,可由下式表示a(k)=wi(k)xici(k)||c(k)||]]>其中k=1、...、9以及||c(k)||=(i=164(ci(k))2]]>及加權因子是由下式表示wi(k)=ci(k)/i(k)i=164ci(k)/i(k)]]>其中i=1、2、...、64及k=1、2、...、9以及σi(k)為對應於kth參考元音的總體中維量i的標準偏差。在加權因子wi(k)中,σi(k)用作為常數,其使得在所有9個參考矢量中的所有維量具有相同方差。在加權因子的ci(k)項強調具有較大振幅的頻譜分量。此組對應至每一參考矢量的加權數被正規化。
對許多情況而言,上述的投射類似性是足以用於精確的話語識別。但圖15(b)顯示頻譜上相似的參考元音″i″及″iu″的情況,其中在這些類似參考元音上的輸入矢量的投射類似性將都為大及話語輸入將為頻譜上相似於類似的音素,從而需要進一步的區分以實現精確的話語識別。「相對投射類似性″僅抽取決定性的頻譜分量,從而實現較佳的區分作用。為了解說容易,圖16為一矢量圖,說明用於二維矢量的相對投射類似性。當然,所有多維矢量是在本發明的預期範圍內。輸入矢量x接近兩類似的參考矢量c(k)及c(l),稍微較接近c(k),但在投射上的差異不大,如圖16(a)所示。通過c(k)-c(l)表示的界於c(k)及c(l)之間的差異對於輸入話語矢量x的分類具有決定性。圖16(b)及16(c)顯示x-c(l)在c(k)-c(l)上的投射是大於x-c(k)在c(l)-c(k)上的投射,以及其等的差異是較x單獨在c(k)及在c(l)上的投射之間的差異顯著。利用此觀察,相對於c(l)的輸入矢量x在c(k)的統計上加權投射為q(k,l)=i=164vi(k,l)(xi-ci(l))(ci(k)-ci(l))||c(k)-c(l)||]]>其中k=1、...、9,1≠k,以及||c(k)-c(l)||=i=164(ci(k)-ci(l))2.]]>正規化加權數因子由下式表示vi(k,l)=|ci(k)-ci(l)|/(i(k))2+(i(l))2i=164|ci(k)-ci(l)|/(i(k))2+(i(l))2]]>其中i=1、...、64;k=1、...、9,1≠k。加權因子用於強調此具有大差異的兩參考矢量的這些分量及用於使差異在所有維量中相等。在q(k,l)為負數的情況中,為了控制動態範圍及為了維持識別輸入矢量所需的線索,負的q(k,l)被設定為一小正值以及正值的q(k,l)不改變(單極傾斜函數)。相對於c(l)的x在c(k)上的相對投射類似性被定義為r(k,l)=q(k,l)q(k,l)+q(l,k)]]>其中k=1、...、9,1≠k。因此,總共有8×9=72個相對的投射類似性,其與9個投射類似性一起界定本發明的較佳具體實施例的語音特徵。
在本發明的一較佳具體實施例中,投射類似性及相對投射類似性的整合以辨認話語是利用一譜系分類,其中投射類似性通過選擇具有較大的x在c(k)上的投射值,換言之,對a(k)而言為大值的的候選對象來確定第一粗略分類。候選對象被進一步使用成對的相對投射類似性進行篩選。然而,若第一粗略分類未適當地調整,可能未選擇到良好的候選對象。
在本發明的較佳具體實施例中,投射類似性及相對投射類似性是通過語音特徵映射而被積分,其利用方案(a)相對投射類似性被利用用於任何兩具有大投射類似性的參考矢量;以及(b)否則,投射類似性可單獨使用。此將不僅產生更精確的話語識別,亦可更有效率地計算。語音特徵被定義為p(k)=1a(k)+1l=1,l=k9(r(k,l)p(l)-r(l,k)p(k))]]>其中k=1、2、...、9及λ為定標因子,用於控制交叉耦合或橫向抑制的程度。對上述兩參考矢量的方程式的解法(為了說明的簡化性)由下式所示p(k)p(l)=a(k)+(a(k)+a(l))r(k,l)a(l)+(a(k)+a(l))r(l,k).]]>對於a(k)及a(l)二者皆大且具有可比較的振幅的情況下,假設x較接近歐幾裡得範數感覺中的c(k),x與c(k)之間的距離較小,所以r(k,l)大於r(l,k)。若λ相對地小,接著p(k)/p(l)接近r(k,l)/r(l,k),其是通過r(k,l)及r(l,k),相對投射類似性而被確定。對於a(k)及a(l)中只有一者為大時,假設a(k)為大,則r(k,l)及r(l,k)分別接近於1及0以及p(k)/p(l)(+1)a(k)+a(l)a(l),]]>其通過a(k)及a(l)被確定。對於第三及最後一種可能情況,其中a(k)及a(l)皆小,p(k)∝λa(k)+(a(k)+a(l))r(k,l)以及p(l)∝λa(l)+(a(k)+a(l))r(l,k).因為a(k)及a(l)皆小,以及r(k,l)及r(l,k)小於1,因此p(k)及p(l)亦小且可忽略。定義r(k,k)=+l=1,l=k9r(l,k)]]>其中k=1、2、...、9,接著上述p(k)的方程式可寫成矩陣形式 對於k=1、2、...、9的語音特徵p(k)通過在兩側乘上上述矩陣的倒數而解出。
圖17為普通話元音″ai″的語音特徵輪廓圖,開始時最大的語音特徵為″a″,接著轉移成元音″e″及最後″i″變成最大的語音特徵。在450ms後,語音特徵″u″變成可見,雖然相當短且不顯著。本發明經由解體成基本的9個元音實現顯著的識別力。通過利用相對投射類似性以增進類似參考元音之間的識別力,甚至可實現更高的話語識別精確性。圖18(a)顯示對元音″i″(深色點)及元音″iu″(淺色點)的a(8)(″iu″,縱軸)及a(6)(″i″,橫軸)的投射類似性。對投射類似性單獨而言,識別力不大因為不同元音非常接近在一起,如圖18(a)所示。然而,當本發明的語音特徵圖被利用用於″i″(p(6),深色陰影)及″iu″(p(8),淺色陰影)時,識別力被大大地提高,如由圖18(b)所示的元音的顯著分離可看出。
人類通過數種譜系部分識別來感知話語。本發明包含部分識別,因為如上文中方才述及,元音被解體成9個參考元音的區段。再者,當聆聽時,人類忽略許多無關的信息。本發明的9個參考元音用於摒棄許多無關的信息。因此,本發明具體化人類話語感知的特徵以實現較高的話語識別。
本發明中的語音特徵p(k)的識別力是通過標度因子λ的給定值來控制。如上述p(k)的方程式所示,若λ大時,相對投射類似性r(k,l)的總和被λ壓倒。圖19為″iu″語音特徵(p(8))相對於″i″語音特徵(p(6))的圖,以λ作為參數,該參數隨著灰度的增加具有較大值。λ的較小值使分布分散遠離對角線(其代表無識別力),使得兩元音更能識別,從而改良識別精確性。然而,對λ而言,太小值將造成散亂,其難以通過多維量高斯函數在連續HMM(CHMM)識別器114(圖1)中形成模型,造成不良的識別精確性。因此,本發明有利地利用標度因子λ的值以最優化識別力,同時限制散亂。
連續的隱藏馬爾可夫模型識別器114(圖1)利用特徵化話語圖形幀的頻譜特性的統計方法,前提為話語信號可被特徵化為參數的隨機過程且推測過程的參數可以精確的方式測定。可觀察到的馬爾可夫模型為其中各狀態是對應至確定性可觀察到的事件(例如,是否為雨天或晴天),以及模型的輸出為在每一瞬間下的狀態組(例如,當下雨的天數),其中各個狀態是對應至可觀察到的事件。隱藏馬爾可夫模型,另一方面,為雙重嵌入的推測過程(例如在窗簾後擲超過一個銅板),具有基礎的推測過程,其並非直接可觀察到(隱藏在窗簾後),但可僅通過另一組推理過程(銅板投擲)觀察到,其產生觀察的序列。因此,對於離散的符號的觀察,HMM的特徵在於(a)在模型中狀態的數目,(b)每一狀態的不同觀察符號的數目(例如字母大小),(c)狀態-過渡機率分布,(d)觀察符號機率分布,以及(e)初始狀態分布。本發明利用隔離的字識別器,用於V個隔離的待識別的字的系統中(每一字通過不同的HMM被模型化),具有每個字的訓練組的K發聲(通過一或多者說話者說出),其中每一發聲構成此字的特徵的某些代表的一觀察序列。對字彙中的每一字v而言,對上述(c)、(d)及(e)的HMM參數必須估計成最優化對用於vth字的訓練組值的匹配。本發明通過經由話語的感知頻譜及語音特徵分析的觀察序列的測量來識別每個未知的字。後面接著通過所有可能模型的模型似然性的機率計算,且最後選擇具有最高模型似然性的字。機率計算一般是利用最大似然性路徑(韋特比算法)而被執行。對HMM的詳細說明,參考Rabiner Juang,Fundamentals of Speech Recognition,第321-389頁,Prentice-Hall Signal Processing Series,1993。
由於本發明的感知話語處理器112及語音特徵映射器113,輸入至連續HMM識別器114的語音特徵104優於常規的ASR系統,從而產生更強健及精確的話語識別。圖20為添加白噪音至輸入話語信號而未在任何訓練組中的實驗的識別率相對於SNR的圖。圖20(a)顯示辨認列於頂部(top)候選對象以符合話語輸入的結果,以及圖20(b)是用於頂部三個候選對象(因為許多同音字,一些話語必須根據內容進一步區分)。圖的左手側上方為最佳話語識別表現的區域。標示PF(PS)的曲線代表語音特徵加上感知頻譜處理結果(換言之,本發明)及最遠至左上方。PF(SE)代表語音特徵(FFT頻譜包絡)(亦即,利用感知頻譜但無感知頻譜處理的話語處理)且是下一個最佳者。MCEP代表現有話語頻譜的參數化方法,已知為美-標度逆譜(cepstral)係數及相對於本發明的系統較不能不受噪音影響。CEP代表單獨的逆譜係數,無美-標度轉換,且至證實美-標度的有效性的MCEP的右方更大。REF(反射係數)及LPC(線性預測編碼)為其他現有的話語識別方法,所得結果較不理想。因此,可看出本發明實現話語識別的精確性及強健度。圖21為識別率相對於SNR的圖,為三噪音話語測試的另一實驗的結果,利用9個普通話元音及投射類似性作為連續HMM114的輸入,導致增進的識別精確性。PF(PS)代表本發明再次產生最佳的結果。PRJS(PS)代表感知頻譜的投射類似性(亦即,無語音特徵處理的本發明),以及PS為單獨的感知頻譜(亦即,無語音特徵處理的投射類似性計算)。本發明不僅實現較強健及精確的話語識別,亦比傳統方法可實現較高的計算效率,因為話語頻譜參數化被從典型的64降至9。語音特徵映射亦較不受噪音影響,部分是因為其重點在決定性的頻譜分量且忽略由噪音造成的失真。
為了證明本發明可有效地改良話語識別,圖22為外部識別率(%)(使用不同的說話者)相對於內部識別率(%)(使用單一說話者)的圖。朝向右手邊上方角落的點證實最佳的強健度及精確性。再者,與所有其他者相較,PF(PS)顯示最佳的結果。圖23為噪音話語識別率(%)(環境噪音)相對於內部識別率(%)(其中具有較理想的聆聽條件)的圖。朝向右手邊上方角落的點證實最佳的強健度及精確性。與其他現有話語識別方法相較,PF(PS)再次顯示出最佳的結果。
雖然上文中已完整說明特定的具體實施例,可使用不同的改良、替代性結構及等效物。例如,雖然在本文中的例子顯示的是普通話中文,本發明的技術思想是適用於任何具有音節的語言。再者,任何技術,無論是模擬的、數字的、數值的或硬體處理器皆可有利地使用。因此,上述的描述及說明不應對通過後附權利要求定義的本發明的範圍造成限制。
權利要求
1.一種用於處理輸入話語頻譜矢量的話語處理系統,其包含感知話語處理器,用於感知地處理輸入話語頻譜矢量以產生感知頻譜;存儲裝置,用於存儲多個參考頻譜矢量;以及語音特徵映射器,其與該感知話語處理器及該存儲裝置耦合,用於將該感知的頻譜映射至該多個參考頻譜矢量上。
2.根據權利要求1的話語處理系統,其中該感知話語處理器包含遮蔽操縱裝置,用於噪音遮蔽輸入話語頻譜矢量以產生經遮蔽的輸入話語頻譜矢量;最小可聽見的區域曲線重正規化器,耦合至該遮蔽操縱裝置,用於將對應至最小可聽見的區域的該經遮蔽的輸入話語頻譜矢量重正規化,以產生重正規化的經遮蔽的輸入話語頻譜矢量,以及美-標度再取樣器,耦合至該最小可聽見的區域曲線重正規化器,用於轉換該重正規化的經遮蔽的輸入話語頻譜矢量成美-標度。
3.根據權利要求1的話語處理系統,其中該語音特徵映射器包含投射類似性發生器,耦合至該存儲裝置,用於產生該輸入頻譜矢量到該多個參考頻譜矢量上的多個投射類似性計算;相對投射類似性發生器,耦合至該存儲裝置,用於產生該輸入頻譜矢量到該多個參考頻譜矢量上的多個相對投射類似性計算;以及選擇器,耦合至該投射類似性發生器及該相對投射類似性發生器,用於自對應至該輸入話語頻譜矢量在該多個參考頻譜矢量上的投射類似性及相對投射類似性的相對值的該投射類似性發生器計算及該相對投射類似性發生器計算之間選擇一投射類似性。
4.根據權利要求3的話語處理系統,其中該多個參考頻譜矢量是由多個靜態元音組成。
5.根據權利要求4的話語處理系統,其中該多個靜態元音是由9個靜態的普通話元音組成。
6.一種用於識別一經取樣的話語頻譜矢量的話語識別系統,其包含快速傅立葉變換分析儀,用於產生經取樣的話語頻譜矢量的傅立葉變換,感知話語處理器,耦合至該快速傅立葉變換分析儀,用於處理該傅立葉變換以產生感知頻譜;存儲裝置,用於存儲多個參考頻譜矢量;以及語音特徵映射器,其與該感知話語處理器及該存儲裝置耦合,用於將該感知頻譜映射至該多個參考頻譜矢量,從而選擇至少一與該感知頻譜有最大類似性的參考矢量;以及連續HMM識別器,耦合至該語音特徵映射器,用於識別該至少一個參考矢量。
7.根據權利要求6的話語識別系統,其中該多個參考頻譜矢量是由多個靜態元音組成。
8.根據權利要求7的話語識別系統,其中該多個靜態元音是由9個靜態的普通話元音組成。
9.一種用於處理一輸入話語頻譜矢量的話語處理方法,包含下述步驟感知地處理輸入話語頻譜矢量以產生感知頻譜;存儲多個參考頻譜矢量;以及將該感知頻譜映射至該多個參考頻譜矢量上。
10.根據權利要求9的話語處理方法,其中該感知地處理步驟進一步包含下述步驟噪音遮蔽輸入話語頻譜矢量以產生經遮蔽的輸入話語頻譜矢量;將對應至最小可聽見的區域的該經遮蔽的輸入話語頻譜矢量重正規化,以產生重正規化的經遮蔽的輸入話語頻譜矢量,以及轉換該重正規化的經遮蔽的輸入話語頻譜矢量成美-標度。
11.根據權利要求9的話語處理方法,其中該映射步驟進一步包含下述步驟產生該輸入頻譜矢量到該多個參考頻譜矢量上的多個投射類似性計算;產生該輸入頻譜矢量到該多個參考頻譜矢量上的多個相對投射類似性計算;以及自對應至該輸入話語頻譜矢量在該多個參考頻譜矢量上的投射類似性及相對投射類似性的相對值的該投射類似性發生器計算及該相對投射類似性發生器計算之間選擇一投射類似性。
12.根據權利要求11的話語處理方法,其中該多個參考頻譜矢量由多個靜態元音組成。
13.根據權利要求12的話語處理方法,其中該多個靜態元音由9個靜態的普通話元音組成。
14.一種經取樣的輸入話語頻譜矢量的話語識別方法,其包含有步驟利用快速傅立葉變換分析儀,產生該經取樣的輸入話語頻譜矢量的傅立葉變換;通過處理該傅立葉變換以產生感知頻譜;存儲多個參考頻譜矢量;將該感知頻譜映射至該多個參考頻譜矢量上;選擇至少一個與該感知頻譜有最大類似性的參考矢量;以及利用一連續HMM識別器識別該至少一個參考矢量。
15.根據權利要求14的話語識別方法,其中該多個參考頻譜矢量由多個靜態元音組成。
16.根據權利要求15的話語識別方法,其中該多個靜態元音由9個靜態的普通話元音組成。
全文摘要
一種用於精確及強健的話語識別的完整系統及方法,其以將三種感知處理技術應用至話語傅立葉頻譜為基礎,以通過將感知頻譜投射至一組參考元音頻譜矢量上以供輸入至話語識別器以實現清晰的感知頻譜及該感知頻譜的精確識別。本發明包含一感知話語處理器,用於感知地處理輸入的話語頻譜矢量以產生一感知頻譜;一存儲裝置,用於存儲多個參考頻譜矢量;及一語音特徵映射器,其與該感知話語處理器及該存儲裝置耦合,用於將該感知的頻譜映射至該多個參考頻譜矢量上。
文檔編號G10L15/00GK1400583SQ0112405
公開日2003年3月5日 申請日期2001年8月8日 優先權日2001年8月8日
發明者卜令楷, 闕志達 申請人:韋爾博泰克公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀