確定和降噪相關聯的不確定性的方法

2023-05-21 17:34:41 1

專利名稱：確定和降噪相關聯的不確定性的方法
背景技術：
本發明涉及模式識別，尤其涉及在降噪後執行模式識別。
模式識別系統，例如語音識別系統，接受輸入信號並試圖對所述信號進行解碼以找出由所述信號表示的模式。例如，在語音識別系統中，語音信號(通常稱為測試信號)由識別系統接收並解碼，以標識由所述語音信號表示的單詞串。
為了對輸入的測試信號進行解碼，大多數識別系統使用描述所述測試信號的一部分表示一個特定模式的似然性的一個或多個模型。這類模型的示例包括神經網絡、動態時間伸縮、分段模型和隱馬爾可夫模型。
在模型能夠用於對輸入信號進行解碼前，它必須先得到訓練。這通常通過對從已知訓練模式生成的輸入訓練信號進行測量來完成。例如，在語音識別中，通過說話人朗讀已知文本產生語音信號的集合。然後使用這些語音信號來訓練所述模型。
為了讓模型起到最佳作用，用於訓練模型的信號應該於被解碼的最終測試信號相似。具體地，希望訓練信號含有與要解碼的測試信號相同數量和類型的噪聲。
通常，訓練信號是在「乾淨」的條件下收集的，並且可以認為是相對無噪聲的。為在測試信號中達到這一同樣低水平的噪聲，本領域中很多已有系統向所述測試信號應用降噪技術。這些降噪技術能獲得之後在模式識別中使用的「淨化」測試信號。在大多數系統裡，所述降噪技術產生一系列多維特徵矢量，每一特徵矢量表示一經降噪的信號的幀。
不幸的是，降噪技術並不能完美起作用，其結果是在淨化信號有某種內在的不確定性。在過去，使用兩種通用技術來處理這種不確定性。第一種技術是忽略所述不確定性而把所述降噪過程視為是完美的。由於這種方法忽略了所述識別系統的真實狀態，所以它導致本來可以避免的識別錯誤。
另一種在降噪中處理不確定性的已有技術是標識可能在其中較差地執行降噪技術的輸入信號幀。在這些幀中，很可能是錯誤的特徵矢量的維度由所述降噪系統標記，使在識別期間不使用它們。由此，其不確定性多於預定量的所述特徵矢量分量在解碼過程中完全被忽略。雖然這種系統確認降噪中的不確定性，但完全忽略一個分量的該技術將這一分量作為沒有提供任何將在識別期間有幫助的信息看待。這是極不可能的，因為即使有大量的不確定性，所述經降噪的分量仍然提供了將識別期間有幫助的某些信息。
另外，現有技術沒有提供用於確定某些噪聲消除過程的不確定性的裝置。其結果是，不可能確定和這些過程相關聯的不確定性。
鑑於這一點，需要用於確定降噪中的不確定性並在模式識別過程中使用這一不確定性的技術。
發明概述提供了一種在含噪聲信號中降低噪聲的方法和裝置。具體地，通過使用一聲學環境模型從含噪聲信號的一個片段的表示中降低噪聲，以產生淨化信號的表示。然後計算出與所述降噪過程相關聯的不確定性。在一個實施例中，使用所述降噪過程中的不確定性對淨化信號的模式狀態進行解碼。
附圖簡述

圖1是可在其中實踐本發明的一個計算環境的方框圖。
圖2是可在其中實踐本發明的替換計算環境的方框圖。
圖3是本發明的一個實施例的使用降噪系統的方法的流程圖。
圖4是可使用本發明的實施例的模式識別系統的方框圖。
說明性實施例的詳細描述圖1說明了可實現本發明的合適的計算環境100的一個示例。所述計算環境100隻是合適的計算環境的一個示例，並不意味著對本發明的使用和功能範圍的任何限制。也不應該把所述計算環境100解釋為對示例性操作環境100中所示的任一元素或元素組合具有任何依賴或需求。
本發明可以在許多其它的通用或專用計算系統環境或配置上運作。可以使用本發明的眾所周知的計算系統、環境和/或配置的示例包括，但不限於，個人計算機、伺服器計算機、手持或膝上設備、多處理器系統、基於微處理器的系統、機頂盒、可編程消費者電子設備、網絡PC、小型機、大型機、電話系統和包括上述系統或設備的分布式計算環境等等。
本發明可以在諸如由計算機執行的程序模塊等計算機可執行的指令的通用環境中描述。一般而言，程序模塊包括完成特定任務或實現特定抽象數據類型的例程、程序、對象、組件和數據結構等等。本發明也可以在由通過通信網絡連接的遠程處理設備完成任務的分布式計算環境中實踐。在分布式計算環境中，程序模塊可以位於本地和遠程計算機存儲媒質中，包括存儲器存儲設備。
參考圖1，實現本發明的示例性系統包括計算機110形式的通用計算裝置。計算機110的組件可包括，但不限於，處理單元120、系統存儲器130和把包括系統存儲器在內的各種系統組件耦合到處理單元120的系統總線121。系統總線121可以是幾種類型的總線結構的任一種，包括存儲器總線或存儲器控制器、外圍總線、或使用多種總線體系結構的任一種的局部總線。作為示例而非局限，這樣的體系結構包括工業標準體系結構(ISA)總線、微通道體系結構(MCA)總線、增強ISA(EISA)總線、視頻電子技術標準協會(VESA)局部總線和外圍部件互連(PCI)總線，即Mezzanine總線。
計算機110通常包括各種計算機可讀媒質。計算機可讀媒質可以是可由計算機110訪問的任一可用媒質，包括易失和非易失媒質、可移動和不可移動媒質兩者。作為示例而非局限，計算機可讀媒質可包括計算機存儲媒質和通信媒質。計算機存儲媒質包括以用於儲存諸如計算機可讀指令、數據結構、程序模塊或其它數據等信息的任一方法或技術實現的易失和非易失、可移動和不可移動媒質。計算機存儲媒質包括，但不限於，RAM、ROM、EEPROM、快閃記憶體或其它存儲器技術、CD-ROM、數字多功能盤(DVD)或其它光碟存儲、磁盒、磁帶、磁碟存儲或其它磁存儲設備、或可以用來儲村所需信息並可由計算機110訪問的任一其它媒質。通信媒質通常在諸如載波或其它傳輸機制這樣的已調製數據信號中包含計算機可讀指令、數據結構、程序模塊或其它數據，並包括任何信息傳遞媒質。術語「已調製數據信號」的意思是以對信號中的信息進行編碼的方式改變或設置其一個或多個特徵的信號。作為示例而非局限，通信媒質包括有線媒質，例如有線網或直接連線連接，以及無線媒質，例如聲學、RF、紅外或其它無線媒質。上述媒質的任何組合也應該包括在計算機可讀媒質的範圍之內。
系統存儲器130包括諸如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132等易失和/或非易失存儲器形式的計算機存儲媒質。基本輸入輸出系統(BIOS)，包含如在啟動期間幫助在計算機110內部元件之間傳輸信息的基本例程，通常存儲在ROM 131中。RAM 132通常包含處理單元120即刻可訪問和/或當前正在操作的數據和/或程序模塊。作為示例而非局限，圖1示出了作業系統134、應用程式135、其它程序模塊136和程序數據137。
計算機110也可以包括其它可移動/不可移動、易失/非易失計算機存儲媒質。僅作為示例，圖1示出了在不可移動、非易失磁媒質上讀寫的硬碟驅動器141、在可移動、非易失磁碟152上讀寫的磁碟驅動器151、以及在諸如CD ROM或其它光媒質等可移動、非易失光碟156上讀寫的光碟驅動器155。在示例性操作環境中也可以使用其它可移動/不可移動、易失/非易失計算機存儲媒質，包括但不限於，盒式磁帶、快閃記憶體卡、數字多功能盤、數字視頻帶、固態RAM、固態ROM等等。硬碟驅動器141通常通過諸如接口140等不可移動存儲器接口連接到系統總線121，而磁碟驅動器151和光碟驅動器155通常通過諸如接口150等可移動存儲器接口連接到系統總線121。
如上所述和圖1所示的驅動器及其關聯的計算機存儲媒質為計算機110提供了計算機可讀指令、數據結構、程序模塊和其它數據的存儲。例如，在圖1中，示出硬碟驅動器141儲存作業系統144、應用程式145、其它程序模塊146和程序數據147。注意，這些組件可以和作業系統134、應用程式135、其它程序模塊136和程序資料137相同或不同。此處給作業系統144、應用程式145、其它程序模塊146和程序資料147不同的標號是為了說明至少它們是不同的副本。
用戶可以通過輸入設備，如鍵盤162、麥克風163，以及諸如滑鼠、跟蹤球或觸摸板等定點設備161向計算機110輸入命令和信息。其它輸入設備(未示出)可以包括操縱杆、遊戲墊、圓盤式衛星天線、掃描儀等等。這些和其它輸入設備通常通過耦合到系統總線的用戶輸入接口160連接到處理單元120，但也可以通過其它接口和總線結構連接，例如並行埠、遊戲埠或通用串行總線(USB)。監視器191或其它類型的顯示設備也通過諸如視頻接口190等接口連接到系統總線120。除監視器之外，計算機也可以包括其它外圍輸出設備，如揚聲器197和印表機196，它們通過輸出外圍接口190連接。
計算機110可以在使用到一個或多個遠程計算機，如遠程計算機180的邏輯連接的網絡化環境中運轉。遠程計算機180可以是個人計算機、手持式設備、伺服器、路由器、網絡PC、對等設備或其它公用網絡節點，並通常包括上面相對於計算機110所描述的許多或全部元件。圖1所述的邏輯連接包括區域網(LAN)171和廣域網(WAN)173，但也可以包括其它網絡。這樣的網絡環境常見於辦公室、企業範圍計算機網絡、內聯和網際網路。
當在LAN網絡環境中使用時，計算機110通過網絡接口或適配器170連接到LAN 171。當在WAN網絡環境中使用時，計算機110通常包括數據機172或其它裝置，用於通過WAN 173，如網際網路建立通信。數據機172，可以內置或外置的，可以通過用戶輸入接口160或其它適當的機制連接到系統總線121。在網絡化環境中，相對於計算機110所描述的程序模塊或其部分可以儲村在遠程存儲器存儲設備中。作為示例而非局限，圖1示出遠程應用程式185駐留在遠程計算機180中。可以理解，所示的網絡連接是示例性的，也可使用在計算機之間建立通信鏈路的其它裝置。
圖2是行動裝置200的方框圖，它是一種示例性的計算環境。行動裝置200包括微處理器202、存儲器204、輸入/輸出(I/O)組件206和用於與遠程計算機或其它行動裝置進行通信的通信接口208。在一個實施例中，上述組件被耦合在一起，用於通過合適的總線210相互通信。
存儲器204被實現為諸如隨機存取內存(RAM)等非易失電子存儲器，它具有電池備份模塊(未示出)，使得當關閉行動裝置200的總電源時儲存在存儲器204中的信息不會丟失。較佳地分配存儲器204的一部分作為用於程序執行的可尋址存儲器，而存儲器204的另一部分較佳地用作存儲，如模擬盤驅動器上的存儲。
存儲器204包括作業系統212、應用程式214和對象存儲216。在操作過程中，較佳地由處理器202從存儲器204中執行作業系統212。在一個實施例中，作業系統212是可從微軟公司購買的WindowsCE作業系統。作業系統212較佳地被設計成用於行動裝置，並實現可由應用程式214通過一組展現的應用編程接口和方法使用的資料庫特徵。對象存儲216中的對象至少部分地響應於對展現的應用編程接口和方法的調用，由應用214和作業系統212維護。
通信接口208表示眾多允許行動裝置200發送和接收信息的設備和技術。僅舉幾個例子，這些設備包括有線和無線數據機、衛星接收器和廣播調諧器。行動裝置200也可以直接連接到計算機以與之交換數據。在這種情況下，通信接口208可以是紅外收發器或串行或並行通信連接，其所有都能夠傳輸流信息。
輸入/輸出組件206包括各種輸入設備，例如觸敏屏幕、按鈕、滾軸和麥克風，也包括各種輸出設備，如音頻發生器、振動設備和顯示器。上文列出的設備都作為示例，而不需要都在行動裝置200中存在。另外，在本發明範圍內，也可以在行動裝置200上附加其它輸入/輸出設備，或在其中找到。
在下面的討論中，參考語音識別來描述本發明，以便於理解本發明。但是，本領域的技術人員將認識到，本發明不限於語音識別，而可以在任一模式識別系統中使用。
語音識別的目的是把語音信號轉換成一列單詞。要做到這一點，通常把語音信號劃分成重疊的語音幀，並把每一幀轉換為描述幀內容的特徵矢量y。在識別—也稱為解碼期間，使用聲學模型來標識可以用特徵矢量表示的最可能的語音狀態序列。所得的語音狀態序列表示單詞的已解碼序列。
許多聲學模型對高斯型(Gaussian)混合進行估算來確定任何一個語音狀態的概率。這樣，在每一幀，對每一語音狀態估算出高斯型混合以標識該幀最可能的語音狀態。對每一高斯型的評估都可以看作是確定p(y|m)，即給定該語音狀態的混合分量m時，該特徵矢量y的概率。
當結合語音識別使用降噪時，由降噪系統將含噪聲的輸入特徵矢量y轉換為淨化特徵矢量該淨化特徵矢量表示實際淨化特徵矢量x的估算。然後將該淨化特徵矢量作為輸入信號應用到語音識別系統中，後者在給定淨化特徵矢量時試圖確定最可能的語音狀態。
如果沒有噪聲惡化，則觀測矢量y和乾淨矢量x相同。由此，估算乾淨觀測矢量的混合分量的高斯型p(y|m)與給定混合分量m時估算乾淨矢量x的概率p(x|m)是一樣的。
但是，當觀測矢量被噪聲惡化，並使用降噪系統時，對識別器的輸入不再是理想的乾淨矢量x，而僅僅是x的估算一淨化特徵矢量在過去，普遍地簡單將淨化特徵矢量看成等於理想的乾淨特徵矢量x來對待。在這種情況下，估算混合分量的高斯型p(y|m)通過確定概率來近似。
在本發明中，使用了一種更嚴格的方法，通過在所有可能的看不見的乾淨語音矢量上臨界化(marginalize)聯合條件概率密度函數p(y，x|m)來確定概率p(y|m)。用等式表示p(y|m)=-p(y,x|m)dx]]>等式1
等式1的右側可以展開，這樣等式1變成p(y|m)=-p(y|x,m)p(x|m)dx]]>等式2為了使與等式2相關聯的計算更容易實現，假設概率p(y|x，m)和m無關，使得它變成p(y|x)。然後將這一概率模型化為描述降噪過程的確定性的高斯分布。具體地p(y|x)=N(x^;x,x^2)]]>等式3其中，該分布在淨化特徵矢量上定義，並和理想乾淨特徵矢量x具有相等的平均值，以及表示與降噪過程相關聯的方差的方差注意，在等式3中使用了簡化符號以將高斯分布表示為整個矢量上的單一高斯型。實際上，對特徵矢量的每一維，有單獨的高斯型，它有自己的平均值和方差。例如p(yl|xl)=N(x^l;xl,x^,l2)]]>等式4其中yl是含噪聲的特徵矢量的l分量，xl是乾淨特徵矢量的l分量，是淨化特徵矢量的l分量，而是與該特徵矢量的l分量的降噪過程相關聯的方差(也稱為不確定性)。
先驗概率p(x|m)，也被模型化為高斯分布的集合，對該矢量的每一分量模型化一個概率，使得p(xl|m)=N(xl;m,l,m,l2)]]>等式5其中μm.l是先驗分布的平均值，而σm.l2是特徵矢量的l分量的分布的方差。
組合等式2、4、5，並估算積分，得p(yl|m)=N(x^l;m,l,m,l2+x^,l2)]]>等式6這樣，在本發明的框架下，在聲學模型中使用的分布的方差是與先驗模型相關聯的方差σm.l2和與降噪過程相關聯的方差或不確定性的組合。結果是，如果對一個分量，與降噪過程相關聯的不確定性很高，則在對每一語音狀態生成的概率之間將幾乎沒有區別。結果是，該分量在語音狀態序列的解碼中將沒有什麼作用。但是，如果降噪過程的不確定性很小，各種語音狀態的聲學模型將對該分量生成與眾不同的概率，從而該分量將對語音狀態的選擇產生很大的影響。
本發明的一個實施例中，所述降噪過程使用了乾淨語音的動態方面的先驗模型、乾淨語音的靜態方面的先驗模型、以及描述乾淨語音、含噪聲的語音和噪聲之間的關係的聲學失真或聲學環境模型。由此，本發明提供了一種確定這一基於參數的降噪過程中的不確定性的技術。
在下面的論述中，在倒譜域中實現該降噪方法。具體地，乾淨語音、含噪聲的語音和噪聲的每一幀都用一倒譜特徵矢量來表示，該倒譜特徵矢量是通過對本幀內的信號的頻域表示取對數並進行離散餘弦變換來形成的。由此，在下面的討論中，該方法試圖從含噪聲的語音特徵矢量中標識經降噪的特徵矢量。與上面的等式3一樣，在下面使用了簡化符號，將每一矢量作為由單個分布表示來看待。在實現中，對該矢量的每一分量都有一個獨立分布。
為了降低含噪聲矢量中的噪聲，使用條件期望來確定經降噪的矢量的最小均方估算x^t=E[xt|yt,x^t-1]=xtp(xt|yt,x^t-1)dxt]]>等式7其中是當前幀的經降噪的特徵矢量的估算，是對上一幀確定的經降噪的特徵矢量的估算，yt是當前幀的含噪聲的語音特徵矢量，xt是當前幀的乾淨語音特徵矢量。
使用貝葉斯規則，等式1的估算可以重新敘述為x^t=xtp(xt|x^t-1)p(yt|xt)dxtp(yt)]]>等式8其中是給定上一幀的乾淨語音矢量的估算時乾淨語音矢量xt的條件概率，p(yt|xt)是給定乾淨語音矢量xt時含噪聲的語音矢量yt的條件概率，p(yt)是含噪聲的語音矢量yt的概率。
在本發明的一個實施例中，使用一種混合模型來描述條件概率用等式表示p(xt|x^t-1)=m=1Mcmp(xt|m,x^t-1)]]>等式9其中，條件先驗概率是由第m個混合分量提供概率，cm是第m個混合分量的加權因子。
在一個實施例中，認為含噪聲的語音是乾淨語音添加了噪聲的結果。這提供了一種聲學環境模型，也被稱為含噪聲的語音的失真模型。在時域中，這一添加是線性的。但是在倒譜特徵域，這一添加變為非現行，導致以下的特徵矢量關係yt＝xt+g(nt-xt)+r 等式10其中g(nt-xt)=log(1+ent-xt)]]>等式11r是餘量。
為了使等式10更易於使用，使用截斷泰勒級數近似來線性化該非線性。具體地，使用在xt＝x0處g(nt-xt)上的零階泰勒級數展開來形成近似yt≈xt+g(n-x0)+r 等式12其中，g(n-x0)是展開點x0處的零階泰勒級數展開，n是當前幀的噪聲估算。在大多數實施例中，選擇展開點x0作為降噪過程的前一次迭代中確定的乾淨語音信號的估算，n使用遞歸技術來確定。本領域的技術人員可以認識到，噪聲估算的遞歸技術只是可以在本發明中使用的眾多不同的噪聲估算技術的一個示例。
基於等式12中所示的關係，等式8的條件概率p(yt|xt)變為聲學環境概率p(yt|xt，nt)。使用這一聲學環境概率以及上文的等式9，等式8可以被重寫為x^t=m=1Mcmxtp(xt|m,x^t-1)p(yt|xt,nt)dxtp(yt)]]>等式13為計算等式13的積分，首先估算條件先驗概率為使該估算更簡單，認識到(xt|m,x^t-1)p(xt,xt|m)]]>等式14其中xt=xt-x^t-1]]>等式15由此，在等式14中，xt表示乾淨語音的靜態方面，Δxt表示乾淨語音的動態方面。
為進一步簡化條件先驗的估算，假設乾淨語音的靜態方面與乾淨語音的動態方面無關。結果是p(xt，Δxt|m)＝p(xt|m)p(Δxt|m)等式16在一個實施例中，乾淨語音的靜態方面的先驗概率和乾淨語音的動態方面的先驗概率的每一個都，被模型化為高斯分布，使得
p(xt,xt|m)=N(xt;mx,mx)N(xt;mx,mt)]]>等式17其中，μmx和Φmx是乾淨語音的靜態方面的先驗模型的平均值和方差，μmΔx和ΦmΔx是乾淨語音的動態放慢的先驗模型的平均值和方差。
將上述兩個高斯分布的乘積中的指數代入xt的標準二次方程式，並使用上面的等式14，產生p(xt|m,x^t-1)=N(xt;m,m)]]>等式18其中m=mx(mx+mx)mx+mx(mx+mx)(xt-1+mx).]]>等式19且m=mxmx(mx+mx)]]>等式20在許多實施例中，聲學環境概率p(yt|xt，nt)也被模型化為生成以下形式的聲學模型的高斯分布p(yt|xt，nt)＝N(yt；xt+g(n-x0)，Ψ)等式21其中，Ψ是固定對角協方差矩陣，它是餘量r的協方差矩陣的近似。
由此，等式13中的分子中的積分變為Im＝∫xtN(xt；μm，Φm)N(yt；xt+g(n-x0)，Ψ)dxt等式22估算該積分，產生Im=[v1(m)mx+v2(m)(xt-1+mx)+w2(m)(yt-g(n-x0))]NM(yt)]]>等式23其中
Nm(yt)=N(yt;mx+g(n-x0),mx+)]]>等式24v1(m)=(mx+)mx(mx+mx)]]>等式25v2(m)=(mx+)mx(mx+mx)]]>等式26w2(m)=I-(mx+)]]>等式27給定等式15中作出的0階近似下乾淨語音模型的第m個分量，等式25中的高斯分布可被示出為在觀測yt的似然性。即p(yt|m)≈Nm(yt)等式28結果是，等式13中的分母可被確定為p(yt)=m=1Mcmp(yt|m)m=1McmNm(yt)]]>等式29組合等式13、23和29，產生xt的估算量xt=m=1Mm(yt)[v1(m)mx+v2(m)(xt-1+mx)+w2(m)(yt-g(n-x0))]]]>等式30其中m(yt)=cmNm(yt)m=1McmNm(yt)]]>等式31等式30中的每一被加數都是貢獻給最終經降噪的矢量的混合分量。每一被加數通過將這三項的加權和乘以含噪聲的特徵矢量yt的相對概率而形成。第一項是從先前的乾淨語音模型的靜態方面的平均值中獲得的經降噪的矢量的預測μmx。第二項是基於對上一幀的經降噪的矢量和先前的乾淨語音模型的靜態方面的平均值的估算對經降噪的矢量的預測(xt-1+μmΔx)。最後一項yt-g(n-x0)是在沒有任何先驗信息時基於聲學失真模型對經降噪的乾淨語音矢量的預測。
由此，等式30中的估算量使用了乾淨語音的靜態方面的先驗模型、乾淨語音的動態方面的先驗模型以及聲學失真模型。結果是，使用等式30的估算量產生的經降噪的矢量序列包含更少的中斷並顯得更加自然。
另外，應用於每一被加數中的每一項的加權值使得當其中一項的方差增加時其相對加權值減小。由此，當某一項對經降噪的值的描述變得更準確時，其加權值相對於其他項的加權值增加。
例如，應用於由乾淨語音的靜態方面的先驗模型預測的值的加權值是乾淨語音的動態方面的先驗模型的方差的函數。結果是，當乾淨語音的動態方面的模型的方差相對於乾淨語音的靜態方面的模型的方差增加時，由靜態方面的先驗模型預測的值的相對加權就增加。
對由乾淨語音的動態方面的先驗模型預測的值的加權也產生相似的效果，因為該加權值是乾淨語言的靜態方面的先驗模型的方差的函數。
在可使用等式31的估算量之前，必須訓練各種模型的參數。在一個實施例中，使用EM算法來訓練倒頻域中的平均值和協方差參數μmx、Φmx、μmΔx和ΦmΔx。在這一訓練過程中，也訓練混合分量權值cm。完成這一訓練的技術在本領域中是眾所周知的。固定協方差矩陣Ψ通過將訓練數據與所有可用的信噪比進行匯聚(pooling)來估算。
在一個實施例中，以迭代方式確定經降噪的矢量xt，使得當前迭代中經降噪的矢量的值用作下一迭代中泰勒級數近似g(n-x0)的展開點x0。對於第一次迭代，泰勒級數近似的展開點是混合分量平均值μmx，它使用正態分布提供了含噪聲的矢量的最高概率N(yt;mx+g(n-x0),)]]>等式32在每一迭代中，經降噪的矢量計算如下x^tj+1=m=1Mmj(yt)[v1(m)mx+v2(m)(x^t-1+mx)+w2(m)(yt-g(n-x^tj))]]]>等式33其中j表示迭代次數，並且mj(yt)=cmN(yt;mx+g(n-x^tj),mx+)m=1McmN(yt;mx+g(n-x^tj),mx+)]]>等式34由此，經降噪的矢量的期望是x^t=x^tJ]]>等式35其中J是迭代總次數。
在本發明中，也計算由等式33的迭代表示的與降噪過程相關聯的不確定性，使其能識別過程中使用。該不確定性是中的方差定義如下x^t=E[xt2|yt]-x^t2]]>等式36其中等式37使用上面等式14-21的近似和模型，積分Im變為Im=xt2N(xt;m,m)N(yt;xt+g(n-x0),)dxt]]>=xt2N(xt;m(t),(m+)-1m)dxtNm(yt)]]>等式38=[(m+)-1m+m2(t)]Nm(yt)]]>其中m=mx(mx+mx)mx+mx(mx+mx)(xt-1+mx)]]>等式39m=mxmx(mx+mx)]]>等式40θm(t)＝(Φm+Ψ)-1[Ψμm+Φm(yt-g(n-x0))] 等式41Nm(yt)＝N(yt；μm+g(n-x0)，Φm+Ψ) 等式42將等式38的結果代入等式37，得到E[xt2|yt]m=1Mm(yt)[(m+)-1m+m2(t)]]]>等式43其中m(yt)=cmNm(yt)m=1McmNm(yt)]]>等式44
然後，使用等式43中計算的值以及等式33-35中計算的經降噪的矢量的期望的平方，以使用上述等式36來確定降噪過程的不確定性。注意，等式36中，是不確定性的矢量表示，它表示靜態經降噪的矢量的每一分量的各自的不確定性上述等式33-35確定了經降噪的矢量的靜態分量。在本發明的實施例中，也可確定描述分量如何在幀之間變化的這些靜態分量的差分。這些差分通常被稱為動態特徵。在本發明中，確定兩種類型的動態特徵。一種是表明幀間變化的增量特徵，另一種是表明增量特徵變化率的加速度特徵。在一個實施例中，增量特徵計算如下x^t==-KKx^t+]]>等式45其中，是經降噪的矢量的動態特徵，K表明用於確定動態特徵的相鄰幀的數量，ωτ是提供對相鄰幀的相對加權的固定權值。注意，在等式45中使用了矢量符號來表明對經降噪的特徵矢量的每一分量執行單獨計算。
加速度特徵也基於等式45中計算的增量特徵來確定。具體地2x^t==-KKx^t+]]>等式46其中，是經降噪的矢量的加速度特徵，K表明用於確定動態特徵的相鄰幀的數量，υτ是提供對相鄰幀的相對加權的固定權值。
增量和加速度特徵與靜態降噪特徵一起提供給解碼器。另外，計算增量和加速度特徵的不確定性，並將其提供給解碼器。具體地，增量和加速度特徵的不確定性計算如下x^t==-KK2x^t]]>等式472x^t==-KK2x^t]]>等式48其中，是上述等式36中計算的不確定性，是增量特徵的不確定性，是加速度特徵的不確定性，ωτ和υτ是等式45和46中所使用的相同的加權值。
靜態特徵、增量特徵和加速度特徵的不確定性的每一個都用在等式6中，以在解碼過程中確定含噪聲的特徵矢量的對應特徵的概率。具體地，等式45和46中計算的增量特徵和加速度特徵的每一分量都作為經降噪的矢量的個別分量來看待，而與增量特徵的每一元素和每一加速度特徵相關聯的對應的不確定性都用作等式6中的不確定性在語音識別中使用本發明的方法和系統在圖3的流程圖和圖4的方框圖中示出。該方法從圖3的步驟300開始，將含噪聲的語音信號轉換成特徵矢量序列。為了完成這一點，圖4的麥克風404把來自說話者400和一個或多個附加噪聲源402的音頻波轉換成電信號。然後由模—數轉換器406對該電信號進行採樣以生成數字值序列，該序列由幀構造器408分組成值的幀。在一個實施例中，模—數轉換器406以16kHz和每樣值16比特對模擬信號進行採樣，從而產生每秒32千字節的語音數據，並且幀構造器408每10毫秒產生一個包含25毫秒數據的新幀。
幀構造器408提供的每一數據幀由特徵提取器410轉換成特徵矢量。標識這一特徵矢量的方法在本領域中是眾所周知的，並包括13維梅爾頻率倒譜係數(MFCC)提取。
在圖3的步驟302，將含噪聲的語音信號的特徵矢量提供給圖4中的噪聲估算模塊411。噪聲估算模塊411估算當前幀的的噪聲，並將表示噪聲估算的特徵矢量和含噪聲的語音信號一起提供給降噪模塊412。
在圖3的步驟304，降噪模塊412使用上述等式33-35、45和46以及儲存在降噪參數存儲413中的這些等式的模型參數，以從含噪聲的特徵矢量序列中產生經降噪的特徵矢量序列。具體地，降噪模塊412使用上述聲學失真模型。另外，降噪模塊412使用等式36-44、47和48以確定與形成經降噪的特徵矢量相關聯的不確定性。
降噪模塊412的輸出是一系列經降噪的特徵矢量和對應的與那些經降噪的特徵矢量相關聯的一系列不確定性。如果輸入信號是訓練信號，則將經降噪的特徵矢量序列提供給訓練器424，它使用經降噪的特徵矢量和訓練文本426來訓練聲學模型418。訓練這一模型的技術在本領域中是眾所周知的，因此不需要為了理解本發明而描述它們。
如果輸入信號是測試信號，則將經降噪的特徵矢量和對應的不確定性提供給解碼器414，後者基於特徵矢量流、不確定性流、詞典415、語言模型416以及如圖3的步驟306中所示的聲學模型418來標識最可能的單詞序列。特別地，解碼使用上述等式6。
將最可能的假設單詞序列提供給置信度測量模塊420。置信度測量模塊420部分地基於二級聲學模型(未示出)，來標識哪些單詞最可能被語音識別器不正確地標識。置信度測量模塊420然後向輸出模塊422提供假設單詞序列以及指示哪些單詞可能被不正確地標識的標識符。本領域的技術人員將認識到，置信度測量模塊420對實踐本發明並不是必需的。
雖然圖4描述了一種語音識別系統，然而本發明也可在任一模式識別系統中使用，而不局限於語音。
雖然參考具體實施例描述了本發明，然而本領域的技術人員將認識到，可以在不脫離本發明的精神和範圍的情況下在形式和細節上作出改動。
權利要求
1.一種降低含噪聲的信號中的噪聲的方法，其特徵在於，所述方法包括使用一聲學環境模型降低所述含噪聲的信號的一部分的表示中的噪聲，以產生經降噪的信號的一部分的表示；以及標識與所述降噪相關聯的不確定性。
2.如權利要求1所述的方法，其特徵在於，它還包括使用所述不確定性來調整一概率分布，以形成經修改的概率分布；以及使用所述經降噪的信號的一部分的表示和所述經修改的概率分布來對一模式狀態進行解碼。
3.如權利要求1所述的方法，其特徵在於，所述經降噪的信號的一部分的表示包括所述經降噪的信號的增量特徵的表示。
4.如權利要求3所述的方法，其特徵在於，所述標識不確定性包括標識與所述經降噪的信號的增量特徵相關聯的不確定性。
5.如權利要求1所述的方法，其特徵在於，所述經降噪的信號的一部分的表示包括所述經降噪的信號的加速度特徵的表示。
6.如權利要求5所述的方法，其特徵在於，所述標識不確定性包括標識與所述經降噪的信號的加速度特徵相關聯的不確定性。
7.如權利要求1所述的方法，其特徵在於，所述降噪包括使用一乾淨信號的動態方面的先驗模型。
8.一種具有用於執行以下步驟的計算機可執行指令的計算機可讀媒質將一含噪聲的信號的幀轉換成一包括至少兩個分量的特徵矢量；通過使用一聲學失真模型降低所述含噪聲的信號的特徵矢量的分量中的噪聲，以產生淨化信號的特徵矢量的分量；以及標識與降低所述分量的噪聲相關聯的不確定性。
9.如權利要求8所述的計算機可讀媒質，其特徵在於，所述計算機可執行的指令還執行以下步驟部分地基於所述淨化信號的分量和與從所述分量中降噪相關聯的不確定性，來確定一語音狀態的概率的概率分量；無論所述不確定性的值如何，使用所述概率分量來確定所述語音狀態的概率。
10.如權利要求9所述的計算機可讀媒質，其特徵在於，所述確定概率分量包括部分地基於所述不確定性來定義一概率分布。
11.如權利要求10所述的計算機可讀媒質，其特徵在於，所述定義概率分布包括向概率分布的方差增加所述不確定性。
12.如權利要求8所述的計算機可讀媒質，其特徵在於，所述計算機可執行指令還執行確定所述淨化信號的增量特徵的步驟。
13.如權利要求12所述的計算機可讀媒質，其特徵在於，所述計算機可執行指令還執行確定所述淨化信號的增量特徵的不確定性的步驟。
14.如權利要求8所述的計算機可讀媒質，其特徵在於，所述計算機可執行指令還執行確定所述淨化信號的加速度特徵的步驟。
15.如權利要求14所述的計算機可讀媒質，其特徵在於，所述計算機可執行指令還執行確定所述淨化信號的加速度特徵的不確定性的步驟。
16.如權利要求8所述的計算機可讀媒質，其特徵在於，所述從分量中降噪還包括使用一乾淨信號的動態方面的先驗模型。
全文摘要
提供了一種基於語音失真的參數模型確定降噪中的不確定性的方法和裝置。該方法首先用於降低含噪聲的信號中的噪聲。具體地，通過使用一聲學環境模型(413)從含噪聲的信號的一部分的表示中降低(304)噪聲以產生淨化信號的表示。然後計算與所述降噪過程相關聯的不確定性。在一個實施例中，使用降噪過程的不確定性以及經降噪的信號對模式狀態進行解碼。
文檔編號G10L15/14GK1653520SQ03811403
公開日2005年8月10日申請日期2003年5月20日優先權日2002年5月20日
發明者鄧立, A·阿塞羅, J·G·德羅普申請人:微軟公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

確定和降噪相關聯的不確定性的方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法