新四季網

用於漢語語音音調抽取的方法和系統的製作方法

2023-06-14 11:31:26

專利名稱:用於漢語語音音調抽取的方法和系統的製作方法
技術領域:
本發明涉及語音識別領域。更具體地說,本發明涉及一種方法和系統,用於在語音識別中使用局部優化動態編程音調(pitch)路徑跟蹤(path-tracking)來進行漢語語音音調抽取。
背景技術:
音調抽取在多種語音處理系統中都是非常重要的組成部分。除了提供對產生語音的激勵源的特徵的有價值的深入研究之外,說話的音調曲線對識別講話者來說也很有用,因而在幾乎所有的語音分析合成系統中都是必需的。由於音調抽取的重要性,在語音識別領域已經提出了很多種用於音調抽取的方法和系統。
基本上,用於音調抽取的方法或系統進行發音/不發音(voiced/unvoiced)判斷,並在發音語音期間提供對音調周期(pitch period)的測量。用於音調抽取的方法和系統大致可劃分成下述3個寬泛的類別1.原理上利用語音信號的時域特性的組。
2.原理上利用語音信號的頻域特性的組。
3.同時利用語音信號的時域和頻域特性的組。
時域音調抽取器直接對語音波形進行操作,以估計音調周期。對於這些音調抽取器,最經常進行的測量有峰谷測量、越零(zero-crossing)測量和自相關(auto-correlation)測量。所有這些情形下所作出的基本假設是如果已合適地處理了準周期性信號以將格式結構的影響最小化,則簡單的時域測量將可提供對所述周期的良好的估計。
頻域音調抽取器這一類別使用了下述特性,即如果信號在時域上是周期性的,則信號的頻譜將由基頻及其諧波處的一系列衝激組成。因此,可對信號的頻譜進行簡單的測量以估計信號的周期。
混雜式音調抽取器這一類別同時包含了時域和頻域方法的特性以進行音調抽取。例如,混雜式抽取器可能使用頻域技術來提供頻譜平坦的時間波形,然後使用自相關測量來估計音調周期。
雖然上述用於音調抽取的傳統方法和系統是精確且可靠的,但它們只適用於特性分析,而不適用於實時語音識別。另外,由於多數歐洲語言和漢語的區別,對於漢語語音音調抽取來說需要考慮一些特殊的方面。
對比於多數歐洲語言,漢語普通話使用聲調(tone)來用於詞彙區分。聲調在整個音節上持續。有5種詞彙聲調,它們在含義的歧義消除中起著重要作用。這些聲調的直接聲學表示是圖1所示的音調曲線變動模式。聲調最直接的聲學體現是基頻。因此,對於漢語語音音調抽取來說,應考慮基頻的影響。
Paul Boersma的題為「Accurate short-term analysis of the fundamentalfrequency and the harmonics-to-noise ratio of a sampled sound」的文章,IFAProceedings 17,1993,pp.97-110,給出了一種詳細而先進的基於基頻處理的音調抽取方法。Paul Boersma的文章的主要概念包括抗偏自相關(anti-biasauto-correlation)和維特比(viterbi)算法(動態編程)技術,其將發音/不發音判斷、音調候選者估計器以及最佳路徑獲得(best path finding)集成到一趟(one pass)處理中,可有效地提高抽取精確度。
然而,Paul Boersma的全局優化動態編程語音路徑跟蹤由於時間延遲而不適用於實際應用。音調抽取的時間延遲取決於兩個因素其一是CPU計算能力,另一個是算法結構問題。像在Paul Boersma的算法中那樣,如果當前窗(幀)中的音調抽取依賴於後面的窗(幀),則無論CPU速度如何,系統都將有響應的結構性延遲。例如,在Paul Boersma的算法中,如果語音長度是L秒,則結構性時間延遲是L秒。對於實時語音識別應用,這有時是不可接受的。因此,對本領域內的技術人員來說,很明顯需要一種改進的方法和系統。

發明內容
本發明公開了若干用於漢語語音音調抽取的方法和裝置,其使用局部優化動態編程音調路徑跟蹤,以滿足實時語音識別應用的低時間延遲需求。
在本發明的一個方面中,提出了一種示例性方法,該方法包括預計算哈明(Hamming)窗函數的抗偏自相關;至少對於一個幀,將第一候選者保存為不發音候選者,並從抗偏自相關函數檢測其他發音候選者;基於所述不發音和發音候選者,根據發音/不發音強度函數來計算音調路徑的成本值,並保存預定數量的最小成本路徑;以及以低時間延遲來輸出多個鄰接幀的至少一部分。
在一個具體實施例中,所述方法包括從語音信號中去除全局和局部DC(直流)分量。在另一個實施例中,所述方法包括將語音信號分段為多個幀,並且對於每個幀,計算頻譜、功率譜和自相關。在另一個實施例中,所述方法包括執行MFCC(Mel頻標倒譜係數)抽取。
本發明包括執行這些方法的裝置和當在數據處理系統上執行時使得所述系統執行這些方法的計算機可讀介質。本發明的其他特徵從附圖和下面的描述中將是很清楚的。


參考附圖,將可更充分地理解本發明的特徵,其中圖1示出了普通話中的5種主要詞彙聲調;圖2示出了一種動態搜索處理;圖3示出了語音曲線的平滑處理;圖4是下述方法的一個實施例的流程圖,該方法用於根據本發明來進行漢語語音音調抽取;圖5是圖4的方法的更詳細的方案的流程圖;圖6是下述方法的一個實施例的框圖,該方法用於根據本發明來進行漢語語音音調抽取;並且圖7是可用於本發明的計算機系統的框圖。
具體實施例方式
在下面的詳細描述中,給出了大量的具體細節,以提供對本發明的透徹理解。然而,本領域內的技術人員將會認識到,本發明不應局限於這些具體細節。
圖7示出了可用於本發明的典型計算機系統的一個示例。注意,儘管圖7示出了計算機系統的多種組件,然而它不應代表任何特定的體系結構或互連所述組件的方式,因為這些細節對本發明來說並沒有密切關係。還將會認識到,具有更少組件或可能具有更多組件的網絡計算機以及其他數據處理系統也可用於本發明。例如,圖7的計算機系統可以是AppleMacintosh或IBM兼容計算機。
如圖7所示,計算機系統700具有數據處理系統的形式,並包括總線702、ROM 707、易失性RAM 705和非易失性存儲器706,總線702耦合到微處理器703。微處理器703可以是Intel公司的Pentium微處理器,其耦合到緩存704,如圖7的示例所示。總線702將這些各種組件互連起來,並將這些組件703、707、705和706互連到顯示控制器和顯示設備708,以及外圍設備例如輸入/輸出(I/O)設備,所述外圍設備可以是滑鼠、鍵盤、數據機、網絡接口、印表機以及本領域公知的其他設備。一般地,輸入/輸出設備710通過輸入/輸出控制器709耦合到系統。易失性RAM 705一般實現為動態RAM(DRAM),其持續地需要電源以刷新或保持存儲器中的數據。非易失性存儲器706典型地是磁性硬碟驅動器、磁光碟機動器、光碟機動器、DVD RAM或即使從系統去除電源時也可保持數據的其他類型的存儲系統。一般地,非易失性存儲器也可是隨機訪問存儲器,儘管這不是必需的。儘管圖7示出了非易失性存儲器是直接耦合到數據處理系統中其餘組件的本地設備,但可認識到,本發明也可利用遠離系統的非易失性存儲器,例如通過網絡接口如數據機或乙太網接口而耦合到該數據處理系統的網絡存儲設備。總線702可包括通過各種橋接器、控制器和/或適配器而彼此連接的一條或多條總線,如本領域內所公知的那樣。在一個實施例中,I/O控制器709包括用於控制USB外設的USB(通用串行總線)適配器。
本發明涉及用於漢語語音音調抽取的方法和系統,其使用局部優化動態編程音調路徑跟蹤,以滿足許多實時語音識別應用的低時間延遲需求。
本發明使用了精確的自相關估計,以及低時間延遲的局部優化動態音調路徑跟蹤處理,可確保音調變動的平滑。利用本發明,語音識別器可有效地利用音調信息,並提高具有聲調的語言例如漢語的語音識別的性能。而且,本發明結合了考慮Mel頻標倒譜係數(MFCC)特徵抽取的計算流,其中MFCC特徵抽取是所有語言語音識別最常採用的特徵。因此,語音特徵抽取中計算資源增加得相對較小。
根據本發明的語音識別中的漢語語音音調抽取方法可包括下述主要組成部分預處理預計算哈明窗函數的抗偏自相關,進行語音的哈明窗化以用於短期分析,並去除全局和局部DC分量;音調候選者估計對於每個幀,將第一候選者保存為不發音候選者,並從抗偏自相關函數檢測其他發音候選者;以及局部優化動態編程音調路徑跟蹤當接收到新的語音幀時,根據發音/不發音強度函數和傳輸成本函數,對每個可能的音調路徑計算成本值,在路徑棧中保存預定數量的最小成本路徑,並以低時間延遲連續輸出多個幀。
根據本發明的語音識別中的漢語語音音調抽取系統包括下述組件預處理器包括用於計算哈明窗函數的抗偏自相關的預計算器,包括用於進行語音的哈明窗化以用於短期分析的哈明窗化處理器,還包括用於去除全局和局部DC分量的處理器;音調候選者估計器對於每個幀,將第一候選者保存為不發音候選者,並從抗偏自相關函數檢測其他發音候選者;以及局部優化動態編程處理器當接收到新的語音幀時,根據發音/不發音強度函數來對每個可能的音調路徑計算成本值,傳輸(transmit)所述成本函數,在路徑棧中保存預定數量的最小成本路徑,並以低時間延遲連續輸出多個幀。
如圖4所示,本發明用於漢語語音音調抽取的方法包括下述組成部分
預處理410對於這一語音識別應用,由於在這一情形下Mel頻標倒譜係數(MFCC)特徵分析是必需的,因此預處理包括哈明窗函數的自相關的預計算、對語音進行哈明窗化以用於短期分析、全局和局部DC分量的去除等等。所述創造性方法使用抗偏自相關函數,它是修正的自相關函數。我們採用這一函數來執行基於自相關的音調抽取,因為它比通常的自相關函數更精確。
音調候選者估計器420對於每個幀,所述創造性方法包括將第一候選者保存為不發音候選者,它總是會出現。從抗偏自相關函數檢測到其他K個發音候選者。在這一應用中,對每一個候選者都定義了合理的強度值。
局部優化動態編程音調路徑跟蹤430原理上,語音中連續的幀上音調值不會出現劇烈的變化。基於這一原理並考慮人類語音的音調值範圍的有限性,設計了一個成本函數來用於音調路徑。當接收到新的語音幀時,對每個可能的音調路徑計算成本值,在路徑棧中保存N個最小成本路徑,並以低時間延遲連續輸出多個幀。
音調曲線的平滑和音調歸一化440在漢語語音識別系統中,將初始/最終階段作為普通話的建模單元。由於多數初始階段是不發音語音而大多數最終階段是發音語音,因此在音調曲線的初始/最終階段之間存在音調的不連續性。對音調曲線進行平滑,以滿足隱式馬爾可夫模型(HMM)建模需求。由於在聚類算法(clustering algorithm)中的動態範圍非常重要,因此我們通過劃分平均音調來將音調歸一化到0.7-1.3的範圍,以用其他特徵維度來平衡聚類算法。
本發明在此描述的最後兩個組成部分是專門為語音識別的需求而設計的。
在一個實施例中,本發明基本上集中於1)局部優化動態編程音調路徑跟蹤(上述)傳統的Paul Boersma音調抽取的主要優點之一在於引入了全局動態編程,用於在從下述等式計算的音調候選者矩陣中獲得最佳路徑p=argMaxR(i),i=1,...,N-1
其中,R(i)代表第i個自相關係數。
為了進行更精確的發音/不發音判斷,Boersma利用了全局音調路徑跟蹤算法來進行發音/不發音判斷。為此,Boersma的算法分別對每個幀保留了一個不發音候選者C0,並保留了K個發音候選者。對應於該不發音候選者的頻率定義為0F(C0)=0。另外,所述算法分別為不發音候選者C0和發音候選者定義了強度。
在上述框架中,兩個因素導致了音調抽取的結構性延遲。一個是參數NormalizedEnergy(歸一化能量)。NormalizedEnergy是該幀的全局歸一化的能量值,其中NormalizedEnergy用來測量不發音候選者的強度。這在具有噪音的環境中提高了我們的音調抽取器的魯棒性,尤其是當噪音具有脈衝的形式時。然而,計算全局歸一化的能量值延遲了音調抽取。另一個導致結構性延遲的因素是對最佳路徑的全局搜索。只有當可檢測到語音的結束時才可最終確定最佳路徑並進行回溯。如果語音長度是N個幀,則這兩個因素導致了N個幀的時間延遲。
在全局搜索算法中,將音調路徑保存在M×N矩陣中,如圖2所示。這一矩陣的每一個元素表示音調值。該矩陣的每一行表示候選音調路徑。根據當前的路徑成本,對該矩陣的所有M個音調路徑進行降序排序。當接收到第i個幀語音信號時,根據下述公式,對現有路徑的每個可能的擴展計算路徑成本PathCost{Pathi-1m,Cik},對於所有的m=1...M,k=1...K其中,Pathi-1m,m=1...M是存在於時間i-1處的路徑,而Cik,k=1...K是第i個幀的檢測到的候選者。系統選擇M個最小成本路徑,對它們進行降序排序,在這M個路徑中剪除一部分,並將它們插入到音調路徑矩陣中。當i=N時,輸出音調路徑矩陣中最頂部的原始候選者,它是全局優化的。
然而,本發明的局部優化音調路徑跟蹤算法檢查連續的L個幀(例如從t=i-(L-1)到t=i)之間的最佳路徑中的元素的變動。如果最佳路徑中的元素對於連續L個幀沒有變化,則我們輸出連續的元素並清除音調路徑矩陣和路徑的一部分。
在我們的實驗中,觀測到L=5一般足夠了,並且音調輸出的延遲約在10個幀;因此本算法引起的延遲很小。在我們的系統中,平均延遲時間約為120ms。
為了滿足實時應用的需求,我們如下修正了全局歸一化能量值NormalizedEnergy=EnergyOfThisFrame/MaximumEnergy(EnergyOfThisFrame本幀的能量;MaximumEnergy最大能量)其中MaximumEnergy是從以前的歷史中計算出的運行時最大能量值,並且當幀音調輸出可用時進行更新。
使用上述局部優化搜索,精度沒有損失。而且,在此描述的本發明的系統和方法減少了存儲器成本。
2)更受限的目標函數為了提高精度並節省計算資源,我們可以將檢測合理地限制在範圍[Fmin,Fmax]中。即,當我們獲得局部最大值R*(m)的位置和高度時,可認為是最大值的位置只能是那些產生[Fmin,Fmax]之間的音調的位置。在我們的算法中,Fmin=100Hz,Fmax=500Hz,就人類發音的特性來說這一限制是合理的。
由於在語音信號中總是存在諧波頻率,因此我們應該傾向於較高的基頻。因此,我們不能將局部最大值R*(m)直接用作為發音候選者的強度值。我們提出了一種新的發音和不發音強度計算以及傳輸成本計算的方法如下不發音強度計算公式I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThershold)]]>(VoicingThreshold發音閾值)發音強度計算公式I(Ck)=R*(mk)*(MinimumWeight+log10(F(Ck)-Fminlog10(Fmax)-Fmin*(1.0-MinmumWeight))]]>(MinimumWeight最小權重)傳輸成本計算公式TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)(TransmitCost傳輸成本;TransmitCoefficient傳輸係數)我們採用音調路徑的路徑成本函數進行計算,直到第i個幀,如下述公式Cost{path}=i=2numberofframesTransmitCost(Fi-1,Fi)-i=1numberofframesIi]]>(Cost成本;path路徑;numberofframes幀數量)通過將音調範圍限制到實際人類語音中的通常範圍,所述路徑跟蹤算法可以更精確地抽取音調。
3)後期處理音調曲線的平滑和歸一化音調曲線的平滑提高了聲學建模的魯棒性,並降低了整個系統的敏感度。在C.Julian Chen,et al.,「New methods in continuous Mandarin speechrecognition」,EuroSpeech 97,pp.1543-1546的方法中,提出了一種指數函數。對於以前的一些傳統音調抽取算法,發音/不發音判斷不是非常可靠。在不發音段和發音段之間的轉換期間經常存在一些不期望出現的音調脈衝。所述指數函數對於平滑這些不可靠的音調值來說可能是有用的,但是,當發音/不發音判斷非常可靠時,該指數平滑函數的優點就消失了。而且,指數平滑將會損害可靠的音調曲線,並使得音調曲線過於平滑,從而損害了音調模式的區分性特性。在本發明中,我們直接限制了發音區域的音調值。
如圖3所示,對於不發音區域,被平滑的音調值是P(t)=P(ts)+t-tste-tsP(te)-P(ts)]]>在此,發音音調在平滑期間保持不變,而不發音部分將在其鄰近的發音音調值期間都保持為噪音值。再一次地,我們發現如果來自局部優化路徑的輸出的最終元素是不發音幀,則我們將由於平滑需求而得到了額外的時間延遲。因此,在本發明的一個實施例中,我們修改了局部優化搜索算法,以搜索在連續的L個幀之內保持不變的最後的發音元素,同時輸出這一元素之前的所有元素。按照這種方式,我們可以容易地平滑所有不發音幀的音調曲線,而不會在平滑部分中產生任何額外的延遲。一般地,局部優化搜索中由於等待發音幀而產生的時間延遲增加到約為12個幀。對於多數語音識別應用來說這一水平的延遲是很可以接受的。
在傳統的語音識別系統中,使用了不同級別的多種聚類算法,MFCC特徵值通常在(-2.0,2.0)之間。這樣,需要音調歸一化來提高語音識別精度。考慮實時需求,如下計算歸一化的音調值NormalizedPitchValue=PitchValue/AveragePitchValue(NormalizedPitchValue歸一化的音調值;PitchValue音調值;AveragePitchValue平均音調值)在此,「平均音調值」是從以前的歷史中計算的運行時平均值,並且當輸出一些音調幀段時連續地更新。基於5種詞彙聲調的音調變動範圍,歸一化的音調範圍一般在(0.7,1.3)之間。
由於本發明中使用的局部優化搜索,時間延遲減小了。由於局部優化搜索中所需的短棧,搜索空間和存儲器需求也減小了。這對分布式語音識別(DSR)客戶的情形來說尤其重要,因為典型的行動裝置通常是存儲器敏感並且是計算敏感的。而且,本發明使得與平滑和歸一化的局部化相關聯的任何延遲都變得非常可控制。在一個實施例中,通過劃分音調值的移動平均值,音調值被歸一化到0.7-1.3的範圍。
如上所述,本發明包括局部優化搜索以及對應的音調值後期處理。
圖5示出了本發明的系統和方法的更詳細的流程圖。參考圖5,下面將更詳細地描述本發明的處理和系統的每個組成部分。
1.計算哈明窗的自相關函數Rw(m)=1Nn=0N-1-|m|hamming(n)hamming(n+m)]]>哈明窗的長度N對應於24ms。
2.去除全局DC分量在成幀之前,對輸入語音信號sin施加陷波濾波(notch filtering)操作,以去除它們的DC偏移,獲得沒有偏移的輸入信號sof(方框510)。
sof(n)=sin(n)-sin(n-1)+0.999*sof(n-1)3.將語音信號分段成幀(方框515)。在一個實施例中,幀長是24ms,幀平移步階是12ms。
4.計算每個幀的歸一化能量(方框515)。
5.對於i=1總幀數,進行下述步驟·去除第i個幀的局部DC分量(方框520)。
·增加第i個幀的哈明窗(方框520)。
xi(n)=x(n)*hamming(n-i*N)·計算第i個幀的快速傅立葉變換(FFT)(方框525)。
Hi(ω)=FFT(xi(n))·計算第i個幀的功率譜(方框530)。
Pi(ω)=Hi2(ω)·進行IFFT(逆快速傅立葉變換),獲得第i個幀的自相關(方框535)R^i(m)=IFFT(Pi)]]>·計算第i個幀的的抗偏自相關(方框540)。
R*i(m)=R^i(m)/R^i(0)Rw(m)/Rw(0)]]>·音調候選者估計器(方框545)設置保留的不發音候選者,計算其強度I(C0)。
從局部最大值R*i(m)檢測最高K個候選者Ck,k=1,2,...,K,計算它們的頻率F(Ck)和強度I(Ck)。
·局部優化音調路徑跟蹤和後期處理(方框550)如果在時間i-1,存在M個排序路徑Pathi-1m,(m=1,,M).]]>在時間i,當第i個幀語音信號到來時,我們通過下述成本函數來擴展音調路徑PathCost{Pathi-1m,Cik},]]>對於所有的m=1,...,M,k=1...,K降序排列所擴展的路徑,並剪除M階之外的路徑。我們得到Pathim,m=1,...,M取得最佳路徑,我們構建如下的序列Path11,Path12,...,Pathi1在此Pathi1={Pi1,Pi2,,PiNi}]]>在Pathi1中尋找滿足下述要求的最後一個音調元素Pih1)發音(意味著Pih≠0)2)在最佳路徑序列中從t=i-(L-1)到t=i,Pih保持不變。
如果獲得了Pih,則進行下述步驟(方框560)輸出Pi0…Pih清除部分路徑緩衝區如果存在不發音區域則進行平滑執行歸一化如下更新(MaximumEnergy,NormalizedEnergy)和AveragePitch(平均音調)MaximumEnergy=max(MaximumEnergy,EnergyOfOutputedFrames)NormalizedEnergy=EnergyOfFramesInThePathBufferMaximumEnergy]]>AveragePitch=AveragePitch+AveragePitchOfOutputedFrames2]]>(EnergyOfOutputedFrames輸出幀的能量,EnergyOfFramesInThePathBuffer路徑緩衝區中的幀的能量,AveragePitchOfOutputedFrames輸出幀的平均音調)否則繼續(continue)。
·如果這是最後幀,則輸出路徑棧中的最小成本路徑,並終止音調抽取處理(方框560)。
圖6是根據本發明一個實施例的漢語語音音調抽取系統的框圖。該系統包括預處理器(610);音調候選者估計器(615);局部優化動態編程處理器(620);用於對音調曲線進行平滑的平滑處理器(625);和音調歸一化處理器(630)。最後兩個組件(625和630)是為語音識別的需求而專門設計的。
如上所述,我們的發明使用了局部優化動態編程音調路徑跟蹤而不是全局音調跟蹤來滿足許多實時語音識別應用的低時間延遲需求。為了保持精確度,我們定義了音調路徑的更為受限的目標函數。我們使用一種新方法來測量每個音調候選者的強度,並使用一種新方法來計算發音候選者的頻率權重。所有這些修正都使得發音/不發音判斷更為可靠,並且使得所得到的音調抽取更為精確。本發明還減少了存儲器成本。本發明所提供的所有修正都有助於提高實時語音識別器的性能和可行性,尤其是在DSR客戶應用中。
這樣,本發明描述了一種漢語語音音調抽取系統和方法,其使用局部優化動態編程音調路徑跟蹤,以滿足許多實時語音識別應用的低時間延遲需求。
權利要求
1.一種漢語語音音調抽取方法,包括預計算哈明窗函數的抗偏自相關;至少對於一個幀,將第一候選者保存為不發音候選者,並從所述抗偏自相關函數檢測其他發音候選者;以及基於所述不發音和發音候選者,根據發音/不發音強度函數來計算音調路徑的成本值,保存預定數量的最小成本路徑,並以低時間延遲來輸出多個鄰接幀的至少一部分。
2.如權利要求1所述的方法,還包括對音調曲線進行平滑以滿足建模需求。
3.如權利要求1所述的方法,還包括將音調曲線歸一化以滿足聚類算法平衡。
4.如權利要求1所述的方法,其中所述不發音強度函數是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>並且所述發音強度函數是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
5.如權利要求1所述的方法,還包括根據傳輸成本函數計算音調路徑的成本值,其中所述傳輸成本函數是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
6.如權利要求1所述的方法,還包括去除全局和局部直流分量。
7.如權利要求1所述的方法,其中所述抗偏自相關函數是Rw(m)=1Nn=0N-1-|m|hamming(n)hamming(n+m).]]>
8.如權利要求1所述的方法,還包括給每個候選者指定強度值。
9.如權利要求6所述的方法,其中所述去除是通過陷波濾波操作進行的。
10.如權利要求1所述的方法,還包括將語音信號分段為多個幀。
11.如權利要求4所述的方法,還包括基於人類發音特性,定義所述Fmax和Fmin。
12.如權利要求10所述的方法,對於每個幀,所述方法還包括通過快速傅立葉變換計算頻譜;計算功率譜;以及通過逆快速傅立葉變換計算自相關。
13.如權利要求1所述的方法,還包括執行Mel頻標倒譜係數抽取。
14.一種漢語語音音調抽取系統,包括預處理器,用於預計算哈明窗函數的抗偏自相關;音調候選者估計器,用於至少對於一個幀,將第一候選者保存為不發音候選者,並從所述抗偏自相關函數檢測其他發音候選者;以及局部優化動態處理器,用於基於所述不發音和發音候選者,根據發音/不發音強度函數來計算音調路徑的成本值,保存預定數量的最小成本路徑,並以低時間延遲來輸出多個鄰接幀的至少一部分。
15.如權利要求14所述的系統,還包括平滑處理器,用於對音調曲線進行平滑以滿足建模需求。
16.如權利要求14所述的系統,還包括歸一化處理器,用於將音調曲線歸一化以滿足聚類算法平衡。
17.如權利要求14所述的系統,其中所述不發音強度函數是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>並且其中所述發音強度函數是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
18.如權利要求14所述的系統,其中所述局部優化動態處理器還根據傳輸成本函數計算音調路徑的成本值,其中所述傳輸成本函數是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
19.如權利要求14所述的系統,其中所述預處理器還去除全局和局部直流分量。
20.一種機器可讀介質,其上存儲有可執行代碼,所述代碼使得機器執行一種漢語語音音調抽取方法,該方法包括預計算哈明窗函數的抗偏自相關;至少對於一個幀,將第一候選者保存為不發音候選者,並從所述抗偏自相關函數檢測其他發音候選者;以及基於所述不發音和發音候選者,根據發音/不發音強度函數來計算音調路徑的成本值,保存預定數量的最小成本路徑,並以低時間延遲來輸出多個鄰接幀的至少一部分。
21.如權利要求20所述的機器可讀介質,其中所述方法還包括對音調曲線進行平滑以滿足建模需求。
22.如權利要求20所述的機器可讀介質,其中所述方法還包括將音調曲線歸一化以滿足聚類算法平衡。
23.如權利要求20所述的機器可讀介質,其中所述不發音強度函數是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>並且所述發音強度函數是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
24.如權利要求20所述的機器可讀介質,其中所述方法還包括根據傳輸成本函數計算音調路徑的成本值,其中所述傳輸成本函數是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
25.如權利要求20所述的機器可讀介質,其中所述方法還包括去除全局和局部直流分量。
26.如權利要求20所述的機器可讀介質,其中所述抗偏自相關函數是Rw(m)=1Nn=0N-1-|m|hamming(n)hamming(n+m).]]>
27.如權利要求20所述的機器可讀介質,其中所述方法還包括將語音信號分段為多個幀。
28.如權利要求27所述的機器可讀介質,其中所述方法還包括通過快速傅立葉變換計算頻譜;計算功率譜;以及通過逆快速傅立葉變換計算自相關。
29.如權利要求20所述的機器可讀介質,其中所述方法還包括執行Mel頻標倒譜係數抽取。
全文摘要
本發明公開了一種漢語語音音調抽取方法和系統。所述漢語語音音調抽取方法和系統包括預計算哈明窗函數的抗偏自相關;至少對於一個幀,將第一候選者保存為不發音候選者,並從抗偏自相關函數檢測其他發音候選者;以及基於所述不發音和發音候選者,根據發音/不發音強度函數來計算音調路徑的成本值,保存預定數量的最小成本路徑,並以低時間延遲來輸出多個鄰接幀的至少一部分。
文檔編號G10L25/93GK1585967SQ02822356
公開日2005年2月23日 申請日期2002年11月8日 優先權日2001年11月12日
發明者良·何, 波·徐, 文·柯 申請人:英特爾公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀