新四季網

語音端點檢測中的短時能頻值波形斜率門限的確定方法

2023-05-11 03:48:56 1

專利名稱:語音端點檢測中的短時能頻值波形斜率門限的確定方法
技術領域:
本發明涉及自動字幕生成系統中的語音檢測技術,具體涉及一種語音端點檢測中的短時能頻值波形斜率門限的確定方法。

背景技術:
語音端點檢測技術是語音技術研究的一個新的領域,其應用於自動字幕生成系統中。當前的字幕製作方法首先需要準備好字幕文稿,這種字幕文稿是指在製作電視節目之前,事先寫好的一個文本文件,記錄著節目的標題、主持人要說的話,以及被採訪人所講的話等內容。在製作電視節目時,編輯人員把音、視頻素材添加到非線性編輯軟體的故事板上,然後按照節目的主旨,對其進行編輯。編輯操作一般包括對素材位置的修改,添加一些特技,添加字幕等等。添加字幕時,一般是先在字幕文稿中選擇多段文字(每一段就是一句話),然後以這些文字生成一個新的字幕文件,將這個文件拖上非線性編輯軟體的軌道,此時字幕中的每一句話就會按順序播出,但是往往會出現「聲畫不同步」的現象,即字幕出現的時刻和音頻文件中播出的聲音對不上。這時就需要編輯人員一邊聽聲音,一邊一句句地修改字幕的入點和出點的值。這就非常耗費人力和時間,影響唱詞文件生成的質量和效率。
從複雜背景噪聲中找出語音的起始點和結束點,即語音端點檢測技術,一直是語音信號處理中的基本問題。由於語音端點檢測的重要性,人們已經提出了很多種語音端點檢測方法。這些方法大致可以分為基於模型的方法和基於門限的方法兩類。
基於門限的語音端點檢測方法是根據語音的特點,選擇合適的特徵參數,然後將該特徵參數與預先設定的門限值進行比較,或者是先對特徵參數進行一系列的後期處理然後再與門限進行比較。
現有的基於門限的端點檢測參數主要有 1)能量以聲音的強度作為判斷參數。這種方法在高信噪比的情況下會有很好的效果。但是,在信噪比低的情況下,如在汽車引擎聲、關門聲等噪聲的幹擾下,這種方法的準確率很低。
2)頻率採用頻率域的特徵作為判斷依據。這種方法可以準確的區分語音和汽車引擎、關門聲等噪聲,但是,對於語音和樂音的區別效果較差。
無論採用哪種音頻參數,傳統的語音端點檢測方法在特定的噪聲環境下都存在很大的不足。比如,基於能量的方法在低SNR的環境中表現不好;基於信息熵的算法在音樂背景下則會失效。
通過對大量仿真試驗數據的分析,發明人將時域和頻域的音頻特徵參數結合在一起,提出了一種新的音頻參數--短時能頻值(見同期申請的專利),通過計算音頻文件中每一幀的短時能頻值,形成一個短時能頻值序列,通過尋找短時能頻值上升區間或下降區間,計算上升區間或下降區間的短時能頻值序列波形的平均斜率,根據波形斜率門限值的設定,就可以對語音的起點或終點進行判斷,從而實現語音端點的檢測。
在語音端點檢測的實際判斷過程中,語音、背景音樂和背景噪聲的短時能頻值波形之間都沒有明確的界限,設定不同的門限值會得到不同的語音端點檢測結果。可見,短時能頻值波形斜率門限值設定的是否合適將直接影響語音端點檢測的準確性。


發明內容
本發明的目的在於針對應用短時能頻值序列進行語音端點檢測的技術特點,提供一種短時能頻值波形斜率門限的確定方法,以滿足語音端點檢測技術的需要。
本發明的技術方案如下一種語音端點檢測中的短時能頻值波形斜率門限的確定方法,包括如下步驟 (1)分析當前的短時能頻值序列,找出其最小值,記為EZE-featuremin;找出其最大值,記為EZE-featuremax,然後計算EZE-featuremax/100; (2)比較EZE-featuremin和EZE-feturemax/100,取其中較大者,記為EZE-featureslope; (3)確定短時能頻值波形斜率門限值Rm=EZE-featureslope×2。
進一步,如上所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,短時能頻值序列中的第i幀的短時能頻值為 EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,RZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;Eb、Zb和Hb分別表示當前背景噪聲的短時能量,短時過零率和短時信息熵。
進一步,如上所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,第i幀的短時能量為 其中,N表示第i幀中所包含的音頻採樣數量;Sn表示第n個採樣的取樣值。
進一步,如上所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,第i幀的短時過零率為 其中,N表示第i幀中所包含的音頻採樣數量;Sn表示第n個採樣的取樣值;sgn為符號函數,定義為 進一步,如上所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,提取第i幀短時信息熵的步驟如下 (a)利用短時傅立葉變換(FFT)對每一幀的信號進行由時域向頻域的轉換 其中,Sn表示第n個音頻採樣,N為總採樣數; (b)計算每一頻率的出現概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應頻率的出現概率,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度, 所規定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 (c)計算語音信息熵 其中,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度,pi表示相應頻率的出現概率,Hi表示第i幀的短時信息熵。
本發明的有益效果如下通過本發明所述方法找到的短時能頻值斜率門限對於整個短時能頻值序列都有效,因此在語音端點檢測過程中不需要再次進行修改,而且在絕大部分情況下基本可以滿足尋找語句端點的需要,因此,可以提高語音端點的檢測效率。另外,通過結合適當的人工幹預,可以通過修改短時能頻值斜率的門限來調整檢測的結果,從而提高語句端點檢測的精度。



圖1為確定短時能頻值波形斜率門限的流程圖。
圖2為短時能頻值的提取流程圖。
圖3為短時能頻值波形的標示圖。

具體實施例方式 首先,對與短時能頻值波形斜率門限相關的技術內容進行介紹。
(一)短時能量、短時過零率和短時信息熵三個音頻特徵參數的提取 1.短時能量 能量是最經常使用的音頻特徵參數之一,是對語音信號最直觀的表示。語音信號的能量分析基於語音信號幅度隨時間有相當的變化這一現象。能量可以用於區別發音的清音段和濁音段,能量值較大的對應於清音段,能量值較小的對應於濁音段。對於高信噪比的信號,可以用能量來判斷有無語音。無語音信號的噪聲能量較小,而有語音信號時能量會顯著增大,由此可以粗略區分語音信號的起始點和中止點。另外,能量還可以用來區分聲母和韻母的分界、以及連字的分界等。
在本發明中,採用「短時能量」作為主要的特徵參數之一。所謂短時能量,就是先對音頻信號進行分幀處理,然後對每一幀求其能量,它被定義為一幀中所有採樣值平方的和。第i幀的短時能量定義為 其中,N表示第i幀中所包含的音頻採樣數量;Sn表示第n個採樣的取樣值。
2.短時過零率 過零率是聲音信號處理過程中一個常用的音頻特徵參數。當離散語音信號的時域波形通過時間橫軸時,相鄰時刻的採樣值如果具有不同的符號,稱為「過零」。單位時間的過零次數稱為「過零率」,即單位時間內音頻採樣值符號變換的次數。同上,在本發明中將單位時間限定為一幀,每一幀的過零率就是「短時過零率」。第i幀的短時過零率定義如下 其中,Sn表示第n個採樣的取樣值;sgn為符號函數,定義為 過零分析是語音的時域分析中最簡單的一種分析。它可以區別語音的發音是清音還是濁音。由於清音語音的多數能量出現在較高的頻率上,因此清音的過零率較高;而濁音語音具有高頻跌落的頻譜,因此濁音的過零率低。利用短時過零率還可以從背景噪聲中找出語音信號。在孤立詞的語音識別中,必須要在一串連續的語音信號中進行適當分割,用以確定每個單詞語音的信號,也即找出每個單詞的開始和終止位置。用平均過零率來確定單詞的起始點時,判斷依據是語音開始點以前的過零率低,而開始點以後的過零率有明顯的數值。在有背景噪聲的情況下,一般背景噪聲的平均過零率較低,而單詞起始段的平均過零率急劇增大,由此可判定此單詞的起始點。
3.短時信息熵 語音的感知過程與人類聽覺系統具有頻譜分析功能是緊密相關的。因此,對語音信號進行頻譜分析,是認識語音信號和處理語音信號的重要方法。語音信號是一種典型的非平穩信號,但是其非平穩性是由發音器官的物理運動過程而產生的,由此可以假定其頻域也是短時平穩的。
信息熵是頻域的重要音頻參數,它反應了語音信號所傳達的信息量的大小。信息熵在語音編解碼中經常被使用,J.L.Shen首次將它應用在語音端點檢測技術中。本發明同樣對每一幀都計算其信息熵,稱為短時信息熵,計算方法如下 (a)利用短時傅立葉變換(FFT)對每一幀的信號進行由時域向頻域的轉換 其中,Sn表示第n個音頻採樣,N為總採樣數; 由於此處的傅立葉變換都是對某一幀進行的,因此相當於對傅立葉變換加上了一個窗口函數w(n-k)。k的取值取決於要對哪一幀進行短時傅立葉變換。
(b)計算每一頻率的出現概率 其中,s(fi)表示頻率f的頻譜能量,pi表示相應頻率的出現概率,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度,此處取480。
所規定的約束條件為 s(fi)=0 if fi≤250HZ or fi≥3750HZ pi=0 if pi≥0.9 第一個約束公式用來保證語音信號的頻率範圍。因為人的發音頻率基本集中在250Hz到3750Hz之間,所以我們把頻率限定在這個範圍之內。第二個約束公式用來濾除在某些頻率上持續發生的噪聲。
(c)計算語音信息熵 其中,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度,pi表示相應頻率的出現概率,Hi表示第i幀的短時信息熵。
試驗證明,語音信號的信息熵和非語音信號的信息熵之間存在很大的差別,由此可以用來尋找語音端點的位置。在很多情況下,尤其是當背景噪聲主要是機械噪聲時,使用信息熵作為特徵參數比單純使用能量更加可靠。
但是,在連續不斷的背景噪聲或者音樂背景下,使用信息熵來進行語音端點檢測會非常不可靠。因為同語音一樣,連續的背景噪聲或者背景音樂也含有很多信息。相對而言,在這種情況下使用能量作為特徵參數反而會取得較好的效果,因為語音與背景噪聲的疊加總會大過單純的背景噪聲。
(二)短時能頻值的確定 在上述三個音頻特徵參數的基礎上,提出了一個結合時域和頻域的語音特徵參數,稱作短時能頻值,記做EZE-feature。
1.短時能頻值的定義 第i幀的短時能頻值EZE-featurei的定義如下 EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb) 其中,EZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;而Eb、Zb和Hb則分別表示了當前背景噪聲的短時能量、短時過零率和短時信息熵。
短時能頻值同時結合了時域和頻域的語音特徵。短時能量和短時過零率屬於時域的音頻特徵參數,短時信息熵則屬於頻域的音頻特徵參數。將時域和頻域的音頻特徵參數結合在一起,能夠發揮他們各自的長處,同時又可以在一定程度上規避他們各自的缺點,從而能夠有效的應對各種不同類型的背景噪聲。
鑑於背景噪聲和背景音樂的這種不確定性,我們不可能一直使用音頻信號的前幾幀作為背景噪聲。而是應該在端點檢測過程中,根據檢測出的語音情況,自動選取新的音頻幀作為背景噪聲進行處理。
首先,默認音頻文件最初的10ms為環境音,將這10ms的音頻信號的短時能量平均值、短時過零率平均值和短時信息熵平均值作為最初的背景噪聲的短時能量Eb、短時過零率Zb和短時信息熵Hb。自適應的語音端點檢測算法對於噪聲採取了一種反饋機制當發現背景噪聲可能已經發生變化時,算法要回退到噪聲發生變化之前的語音幀,重新進行檢測。其過程如下所述 1)找到了某個語音起點,記為第Fh幀,當Fh與上一個語音終點Ft幀相距300ms以上時,則進行環境噪聲的提取。
2)從第Ft幀開始,取接下來的10幀當作背景噪聲,重新計算Eb、Zb和Hb的值。計算方法為取算術平均,以Eb為例 3)從第Ft+1幀開始,使用更新後的Eb、Zb和Hb,重新計算每一幀的短時能頻值,得到新的短時能頻值序列。
4)從第Ft+1幀開始,使用新的短時能頻值序列重新執行端點檢測過程。
2.短時能頻值的提取過程 在語音端點檢測過程中,我們需要求得每一幀的短時能頻值。求第i幀的短時能頻值,就要用到第i幀的短時能量、短時過零率和短時信息熵。其提取過程如圖2所示。
步驟1首先對音頻信號序列進行分幀處理,得到一個音頻幀序列。在本發明中將10ms規定為一幀。例如,如果音頻文件的採樣率是48k/s,那麼每幀就應該包含480個採樣。
步驟2從步驟1中得到的幀序列裡的第一幀開始直到最後,計算每一幀的三個音頻特徵參數,得到短時能量序列、短時過零率序列和短時信息熵序列。
步驟3從幀序列裡的第一幀開始直到最後,應用步驟2裡求得的三個音頻特徵參數序列,並應用每一幀所對應的背景噪聲的相應音頻特徵參數,按照短時能頻值的定義公式進行計算。重複此過程直到所有幀的短時能頻值都計算完成。最後得到一個與幀序列相對應的短時能頻值序列。
(三)基於短時能頻值的語音端點檢測 短時能頻值充分考慮了背景噪聲對語音端點檢測造成的影響,應用這個參數,提出了自適應的語音端點檢測算法。可以通過不斷調整Eb和Zb的值來有效應對背景噪聲突發性改變所帶來的不確定性。
通過仿真工具軟體matlab對很多音頻文件的短時能頻值波形研究後發現在語音和音樂疊加的時間段中,或者在只有語音的時間段中,短時能頻值波形的變化非常劇烈變化頻率很高,而且變化的幅度非常大。而在即沒有語音又沒有音樂,只有背景噪聲的時間段中,短時能頻值基本保持很小的變化幅度,而且變化的頻率比較小。另外,在只有音樂沒有語音的時間段中,不管有沒有背景噪聲出現,由於經過了濾波器濾波後,音樂的高頻部分已經被濾掉,所以雖然短時能頻值變化的幅度仍然非常大,但是,其變化的頻率卻比有語音時要緩和的多。
因此,通過計算一個音頻文件的短時能頻值序列,並研究其波形,找出其中變化劇烈而且變化幅度較大的部分,就能夠找到此音頻文件中的語音部分,從而可以找到其語音端點。所以,尋找語音端點的重點就是找出短時能頻值序列波形中斜率比較大的那些部分,並判斷出它們是否是語音的端點。
1.語音起點和終點的檢測流程 本方法從音頻的第一幀開始檢測,對短時能頻值序列的波形進行分析,依次尋找每一對相匹配的語音起點和語音終點,直到檢測完最後一幀。該方法主要包括以下4個步驟 步驟1計算音頻文件中每一幀的短時能頻值,形成一個短時能頻值序列 X1X2X3X4.....Xn 在算法開始時首先要計算所有音頻幀的短時能頻值,作為初始值。但是並不是所有初始值序列中的值都會被使用到。隨著分析的進行,在分析到後面的幀的時候可能會發現背景噪聲發生了變化,此時背景噪聲的音頻特徵參數Eb、Zb等的值就需要進行調整。從而短時能頻值序列也就相應的需要進行調整。從發現背景噪聲改變的那一幀開始,之前的短時能頻值不用調整,之後的都需要重新計算。重新計算得到的短時能頻值序列也仍然只是暫時的,直到分析完最後一幀之前,短時能頻值序列有可能不斷被修改。
步驟2尋找語音的起點 1)假設從第t幀(對應短時能頻值Xt)開始尋找,檢測第t幀之後每一幀的短時能頻值,直到找到一幀j(對應短時能頻值Xj),使得 Xt≤Xt+1≤Xt+2≤......≤Xj且Xj+1≥Xj+2 即尋找從第t幀開始的短時能頻值序列的上升區間,記為At。
2)計算剛找到的上升區間At的短時能頻值序列波形的平均斜率 在上升區間At中,由於人語音的特點,其短時能頻值序列波形不可能平穩上升,其斜率可能會不斷變化,時大時小。因此雖然在區間At中短時能頻值波形一直保持上升的趨勢,卻只能計算其平均斜率。
3)設定一個門限值Rm,如果有Rt≥Rm,即斜率Rt非常的陡峭,則認為上升區間At屬於語音部分。此時有兩種情況,一種是如果第t幀之前的區間已經被認為是語音區間了,那就說明已經找到了一個語音起點,現在需要尋找與之相對應的語音終點,因此令t=j+1,進入步驟3。另一種情況是第t幀之前的區間沒有被認為是語音區間,則將第t幀記為語音的起點,然後令t=j+1,進入步驟3去尋找與之相匹配的語音終點。
反之,如果Rt<Rm,即斜率Rt比較平緩。此時也有兩種可能,一種是Rt遠遠小於Rm,主要是因為Xt、Xj等短時能頻值都比較小,說明上升區間At屬於背景噪聲。另一種情況是Rt的值比較大,僅略小於Rm,這說明上升區間At很有可能屬於背景音樂。上述兩種情況之間沒有嚴格的界限,就是說無法確定非語音區間到底屬於噪聲還是背景音樂,不過在這兩種情況下,都認為區間At不是語音,因此令t=j+1,循環執行步驟2。
步驟3尋找語音終點 1)假設從第t幀(對應短時能頻值Xt)開始尋找,檢測第t幀之後每一幀的短時能頻值,直到找到一幀j(對應短時能頻值Xj),使得 Xt≥Xt+1≥Xt+2≥......≥Xj且Xj+1≤Xj+2 即尋找從第t幀開始的短時能頻值序列的下降區間,記為Dt。
2)計算剛找到的下降區間Dt的短時能頻值序列波形的平均斜率 與步驟2的情況類似,在下降區間Dt中,由於人語音的特點,其短時能頻值序列波形也不可能平穩下降。因此雖然在下降區間Dt中短時能頻值波形一直保持下降的趨勢,也只能計算其平均斜率。對下降區間Dt而言,其平均斜率Rt應該是負值,但為了方便起見,使用Xt-Xj來使Rt變成正值。
3)與步驟2類似,設定一個門限值Rm,如果有Rt≥Rm,即斜率Rt非常的陡峭,則認為下降區間Dt屬於語音部分。此時有兩種情況,一種是如果第t幀之前已經找到了一個語音起點,則現在找到了與之相對應的語音終點,因此將第t幀記為語音的終點,然後令t=j+1,進入步驟2,再去尋找下一個語音起點。另一種情況是第t幀之前還沒有找到一個單獨的語音起點,即找到了一個不對應任何語音起點的下降區間,則下降區間Dt為一段單獨的語音區間。此時將第t幀記為語音起點,將第j幀記為語音終點。然後令t=t+1,回到步驟2,繼續尋找下一個語音起點。
反之,如果Rt<Rm,即斜率Rt比較平緩。同步驟2中所論述的一樣,認為區間Dt屬於背景噪聲或者背景音樂,此時令t=j+1,循環執行步驟2。
步驟4按照步驟2和步驟3所述循環檢測,直到檢測到最後一幀 如果最後檢測到了一個語音起點,而沒有與之相對應的語音終點,則認為在音頻文件的最後,語音突然中斷。這可能是由於音頻文件在壓制過程中丟失了某些內容或者其它原因造成的。
基於以上技術的介紹,現提出語音端點檢測中的短時能頻值波形斜率門限的確定方法。
通過使用matlab進行了大量仿真試驗,觀察短時能頻值序列的波形後發現在一般的新聞訪談類等背景音樂較少的音頻節目中,短時能頻值的極大值和極小值相比一般相差80倍左右,如圖3所示。
圖3是一段訪談類節目的短時能頻值波形片段。從中可以看到,短時能頻值的極大值EZE-featurea出現在第1650ms、第1850ms、2100ms以及2260ms左右的時間段。而極小值EZE-featurei則出現在第1750ms、第1910ms、第1990ms以及第2210ms左右的時間段。對比EZE-featurea和EZE-featurei可以發現,兩者相差大概80倍左右。
經過分析,如圖1所示,本發明提出以下方法來確定短時能頻值波形斜率的門限 步驟1分析短時能頻值序列,找出其最小值,記為EZE-featuremin;找出其最大值,記為EZE-featuremax,然後計算EZE-featuremax/100。
縱觀整個短時能頻值波形可以發現,其最大值EZE-featuremax比那些極大值EZE-featurea(即波形中每個波的峰值)要稍微大一些。而短時能頻值的最小值EZE-featuremin和極小值EZE-featurei(即波形中比較平緩的部分)則相差不大,因為兩者都是非常小的值,因此其差別可以忽略不計。因此採用最大值EZE-featuremax的1/100與最小值EZE-featuremin進行比較。
步驟2比較EZE-featuremin和EZE-featuremax/100,取其中較大者,記為EZE-featureslope。
步驟3短時能頻值斜率的門限定為Rm=EZE-featureslope×2。
使用上述方法找到的短時能頻值斜率門限對於整個短時能頻值序列都有效,因此在語音端點檢測過程中不需要再次進行修改。在沒有或者較少出現背景音樂的情況下,使用該方法基本可以滿足尋找語句端點的需要,在尋找詞語端點時的精確性稍差。但是當背景音樂在音頻中持續出現時,短時能頻值序列的波形將變得非常複雜,此時使用該方法就得不到滿足要求的斜率門限值,因此需要人工設定。不論在哪種情況下,由人手工設定和調整短時能頻值斜率的門限,都將大大提高語音端點檢測的準確性。
如果發現語音端點檢測的結果有較大的誤差,無法滿足需求,則可以通過修改短時能頻值斜率的門限來調整檢測的結果。
如果發現檢測得到的語音端點中,語音起點普遍提前,而語音終點普遍延遲出現,則說明有可能是斜率門限的值選取的過小,導致一部分背景噪聲也被認為是語音。此時只需將斜率門限的值適當調大,即可得到令人滿意的結果。
相反,如果發現語音起點普遍延遲,而語音終點普遍提前出現,則說明有可能是斜率門限的值選取的過大,導致一部分語音也被認為是背景噪聲。此時則需要將斜率門限的值適當調小。
必須注意,由於背景噪聲或者背景音樂的存在,通過本發明所述語音端點檢測方法得到的語音端點不可能完全精確。但是,由於人對於微小時間誤差的感知是有極限的,因此在50ms之內的語音端點檢測誤差可以接受。通過選取適當的短時能頻值斜率門限,可以將語音端點檢測的誤差控制在50ms以內。
另外,語句端點的時間間隔門限值也可以由人工進行調整。不同的人說話有不同的語速,因此語句間也有不同的時間間隔,人工對語句端點時間間隔進行調整,可以提高語句端點檢測的精度。
本發明所述的方法並不限於具體實施方式
中所述的實施例,本領域技術人員根據本發明的技術方案得出其他的實施方式,同樣屬於本發明的技術創新範圍。
權利要求
1.一種語音端點檢測中的短時能頻值波形斜率門限的確定方法,包括如下步驟
(1)分析當前的短時能頻值序列,找出其最小值,記為EZE-featuremin;找出其最大值,記為EZE-featuremax,然後計算EZE-featuremax/100;
(2)比較EZE-featuremin和EZE-featuremax/100,取其中較大者,記為EZE-featureslope;
(3)確定短時能頻值波形斜率門限值Rm=EZE-featureslope×2。
2.如權利要求1所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,其特徵在於短時能頻值序列中的第i幀的短時能頻值為
EZE-featurei=(Ei-Eb)·(Zi-Zb)·(Hi-Hb)
其中,EZE-featurei表示第i幀的短時能頻值;Ei、Zi和Hi分別表示第i幀的短時能量、短時過零率和短時信息熵;Eb、Zb和Hb分別表示當前背景噪聲的短時能量,短時過零率和短時信息熵。
3.如權利要求2所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,其特徵在於第i幀的短時能量為
其中,N表示第i幀中所包含的音頻採樣數量;Sn表示第n個採樣的取樣值。
4.如權利要求2所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,其特徵在於第i幀的短時過零率為
其中,N表示第i幀中所包含的音頻採樣數量;Sn表示第n個採樣的取樣值;sgn為符號函數,定義為
5.如權利要求2所述的語音端點檢測中的短時能頻值波形斜率門限的確定方法,其特徵在於提取第i幀短時信息熵的步驟如下
(a)利用短時傅立葉變換(FFT)對每一幀的信號進行由時域向頻域的轉換
其中,Sn表示第n個音頻採樣,N為總採樣數;
(b)計算每一頻率的出現概率
其中,s(fi)表示頻率f的頻譜能量,pi表示相應頻率的出現概率,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度,
所規定的約束條件為
s(fi)=0 if fi≤250HZ or fi≥3750HZ
pi=0 if pi≥0.9
(c)計算語音信息熵
其中,M表示傅立葉變換計算得出的頻率的總數,即窗口寬度,pi表示相應頻率的出現概率,Hi表示第i幀的短時信息熵。
全文摘要
本發明涉及自動字幕生成系統中的語音檢測技術,具體涉及一種語音端點檢測中的短時能頻值波形斜率門限的確定方法。該方法通過分析當前的短時能頻值序列,找出其最小值EZE-featuremin和最大值EZE-featuremax,然後計算EZE-featuremax/100;比較EZE-featuremin和EZE-featuremax/100,取其中較大者,記為EZE-featureslope;確定短時能頻值波形斜率門限值為Rm=EZE-featureslope×2。通過本發明所述方法找到的短時能頻值斜率門限對於整個短時能頻值序列都有效,因此在語音端點檢測過程中不需要再次進行修改,而且在絕大部分情況下基本可以滿足尋找語句端點的需要,因此,可以提高語音端點的檢測效率。
文檔編號G10L11/00GK101625859SQ20081011646
公開日2010年1月13日 申請日期2008年7月10日 優先權日2008年7月10日
發明者祺 李, 馬華東, 鄭侃彥, 韓忠濤, 婷 張 申請人:新奧特(北京)視頻技術有限公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀