基於話音特徵自動標識電話呼叫者的製作方法

2023-10-10 11:16:34 2

專利名稱：基於話音特徵自動標識電話呼叫者的製作方法
技術領域：
本發明涉及基於話音特徵對呼入電話呼叫的呼叫者進行自動標識的計算機實現的方法和裝置，尤其涉及路由和篩選呼入電話呼叫的計算機化語音識別技術。
背景技術：
在電話通信系統中，呼叫中心通常被用於基於呼叫者對自動提示的響應來路由和預篩選呼叫。這種提示—響應機制通常非常耗時，因為呼叫者在被路由到所期望的呼叫接收者或信息資料庫前必須通過大量提示。另外，這種機制依賴呼叫者以正確地遵循提示命令。如果呼叫者不和提示命令合作，則呼叫就不能被準確地路由。類似地，呼叫篩選機制依賴於呼叫者真實地響應篩選命令的合作。這使呼叫者和接收者難以準確且有效地路由和篩選呼叫。
所以，已提出了語音識別系統以輔助呼叫路由過程。但是，這種語音識別系統也依賴於提示—響應機制，其中，呼叫者必須響應預定提示。例如，系統可能要求呼叫者陳述呼叫者的名字和/或陳述表示該呼叫的主題或所期望的接收者的身份的預定的單詞或單詞序列。再一次，這些系統只有在呼叫者真實地響應預定提示時才有效。另外，對不同呼叫者的話音輸入特徵的廣泛範圍，用來確定語音的內容的語音識別模型必須能夠準確對這些內容進行分段。所以，這種系統可能還保持耗時或不準確，並可能被不合作的呼叫者毫不費力地繞過。
所以，需要基於話音特徵對呼入電話呼叫進行自動預篩選和路由的改進的方法和裝置。

發明內容
本發明的一個實施例針對一種對從呼叫者到接收者的呼叫的呼叫者進行標識的方法。從呼叫者接收話音輸入，並將話音輸入的特徵應用到多個聲學模型，以得到多個相應的聲學得分。多個聲學模型包括通用聲學模型和任何先前被標識的呼叫者的聲學模型。基於多個聲學得分，呼叫者被標識為先前被標識的呼叫者之一或新的呼叫者。如果呼叫者被標識為新的呼叫者，就為該新的呼叫者生成一新的聲學模型，它對該新的呼叫者是專用的。
本發明的另一個實施例針對一種對從呼叫者到接收者的呼叫的呼叫者進行標識的系統。該系統包括接收來自呼叫者的話音輸入的接收器，和存儲多個聲學模型的聲學模型庫。多個聲學模型包括通用聲學模型和任何先前被標識的呼叫者的聲學模型。該系統還包括用於把話音輸入的特徵應用到多個聲學模型以產生多個對應的聲學得分，並用於基於多個聲學得分把呼叫者標識為先前被標識的呼叫者之一或新的呼叫者的模塊。如果通用聲學模型的聲學得分好於多個先前被標識的呼叫者的聲學模型的聲學得分，則聲學模型發生器就為新的呼叫者生成新的聲學模型。
本發明的又一實施例針對一種包含計算機可執行的指令的計算機可讀媒質，當由計算機執行指令時，執行標識呼叫的呼叫者的方法。該方法包括接收來自呼叫者的話音輸入，和把話音輸入的特徵應用到多個聲學模型，以得到多個對應的聲學得分。多個聲學模型包括通用聲學模型和任何先前被標識的呼叫者的聲學模型。基於多個聲學得分，呼叫者被標識為先前被標識的呼叫者之一或新的呼叫者。如果呼叫者被標識為新的呼叫者，就為這個新的呼叫者生成新的聲學模型，它對新的呼叫者是專用的。
本發明的再一實施例針對一種對呼叫者進行標識的方法，其中，從呼叫者接收話音輸入。使用呼叫者不相關的通用聲學模型，話音輸入被分割成一已識別語音單元序列。話音輸入的特徵被應用到在多個聲學模型中的已識別語音單元的語音單元模型序列，其中，多個聲學模型包括通用聲學模型和任何先前被標識的呼叫者的聲學模型。基於話音輸入的特徵吻合多個聲學模型的程度，呼叫者被標識為先前被標識的呼叫者之一或新的呼叫者。

圖1是按照本發明的一個實施例以常規個人計算機形式實現本發明的示例性系統的方框圖。
圖2是按照本發明的一個實施例標識呼叫者的模塊的系統的更詳細的方框圖。
圖3所示是作為時間的函數的從呼叫者接收的聲學輸入「波」的波形圖。
圖4所示是為圖3所示的聲學輸入生成的一組特徵矢量的圖。
圖5所示是一個語音單元的基本隱馬爾可夫模型(HMM)的狀態圖。
圖6所示是可以用在本發明的一個實施例中的簡化語言模型的例子的圖。
圖7所示是按照本發明的一個實施例對到接收者的電話呼叫的呼叫者進行標識的計算機執行的過程的流程圖。
圖8所示是按照本發明的一個實施例在圖7所示的過程中檢測新的呼叫者或先前被標識的呼叫者的流程圖。
圖9所示是按照本發明的一個實施例訓練呼叫者專用語言模型以按呼叫的內容檢測呼叫者的流程圖。
具體實施例方式
圖1和相關的論述是為了提供可以在其中實現本發明的合適的計算環境的簡短概括的描述。雖然並非所需，本發明將至少部分地在例如由個人計算機或其它計算設備執行的程序模塊等計算機可執行指令的通用環境中被描述。一般而言，程序模塊包括完成特定任務或實現特定抽象數據類型的例行程序、對象、組件、數據結構等。另外，本領域的技術人員會理解，本發明可以在其它計算機系統配置中被實現，包括手持設備、多處理器系統、基於微處理器或可編程的消費電子設備、網絡PC、小型機和大型計算機等等。本發明也可以在由通過通信網絡連接的遠程處理設備完成任務的分布式計算環境中被實現。在分布式計算環境中，程序模塊可以位於本地和遠程存儲器存儲設備兩者中。
參考圖1，實現本發明的示例性系統包括常規個人計算機20形式的通用計算設備，包括處理單元(CPU)21、系統存儲器22和把包括系統存儲器22在內的各種系統元件耦合到處理單元21的系統總線23。系統總線23可以是任何幾種總線結構的一種，包括存儲器總線或存儲器控制器、外圍總線和使用任何各種總線結構的局部總線。系統存儲器22包括只讀存儲器(ROM)24和隨機存取存儲器(RAM)25。基本輸入/輸出(BIOS)26，包含例如在啟動時幫助在個人計算機20中的元件之間傳輸信息的基本例程，被存儲在ROM 24中。個人計算機20還包括用於對硬碟(未示出)進行讀寫的硬碟驅動器27、用於對可移動磁碟29進行讀寫的磁碟驅動器28、以及用於對諸如CD ROM或其它光媒質等可移動光碟31進行讀寫的光碟驅動器30。硬碟驅動器27、磁碟驅動器28和光碟驅動器30分別通過硬碟驅動器接口32、磁碟驅動器接口33和光碟驅動器接口34連接到系統總線23。驅動器和關聯的計算機可讀媒質為個人計算機20提供計算機可讀指令、數據結構、程序模塊和其它數據的非易失性存儲。
雖然這裡描述的示例性環境使用了硬碟、可移動磁碟29和可移動光碟31，本領域的技術人員應當理解，能夠存儲計算機能夠存取的數據的其它類型的計算機可讀媒質也可以被使用在示例性操作環境中，例如磁帶盒、快閃記憶體卡、數字視頻盤、柏努利盒式磁帶、隨機存取存儲器(RAM)和只讀存儲器(ROM)等。
許多程序模塊可以被存儲在硬碟、磁碟29、光碟31、ROM 24或RAM 25中，包括作業系統35、一個或多個應用程式36、其它程序模塊37和程序數據38。用戶可以通過諸如鍵盤40、定位設備42和麥克風43等本地輸入設備向個人計算機20輸入命令和信息。其它輸入設備包括操縱杆、遊戲墊、圓盤式衛星天線和掃描儀等。這些和其它輸入設備通常通過被耦合到系統總線23的串行埠接口46被連接到處理單元21，但也可以通過其它接口，例如音效卡、並行埠、遊戲埠或通用串行總線(USB)連接。監視器47或其它類型的顯示設備通過諸如視頻適配器48等接口被連接到系統總線23。除了顯示器47之外，個人計算機通常可包括其它外圍輸出設備，例如揚聲器45和印表機(未示出)。
個人計算機20可以在使用邏輯連接到例如遠程計算機49等一個或多個遠程計算機的聯網環境中操作。遠程計算機49可以是另一臺個人計算機、手持設備、伺服器、路由器、網絡PC、對等設備或其它網絡節點，並通常包括上面相對個人計算機20描述的許多或全部元件，雖然在圖1中只示出存儲器存儲設備50。圖1中描述的邏輯連接包括區域網(LAN)和廣域網(WAN)。這些聯網環境常見於辦公室、企業範圍計算機內聯和網際網路。
當在LAN聯網環境中使用時，個人計算機20通過網絡接口或適配器53被連接到區域網51。當在WAN聯網環境中使用時，個人計算機20通常包括數據機54或其它裝置，以通過廣域網52，如網際網路建立通信。數據機54可以內置或外置，通過串行埠接口46被連接到系統總線23。在網絡環境中，相對個人計算機20描述的程序模塊或其部分，可以被存儲在遠程存儲器存儲設備中。可以理解，所示網絡連接是示例性的，也可使用在計算機之間建立通信鏈路的其它方式。例如，在網絡的一個或多個部分之間可建立無線通信鏈路。
雖然圖1示出示例性環境，但是本發明不限於數字計算環境。具體地說，本發明可以在模擬設備或混合信號(模擬和數字)設備上被操作。另外，例如，本發明可以在單個集成電路上實現。模塊可以用硬體、軟體、或硬體和軟體的組合來實現。
如上所述，計算機20通常包括各種計算機可讀媒質。計算機可讀媒質可以是可以由計算機20存取的任何可用媒質，包括易失和非易失媒質、可移動和不可移動媒質。作為例子而非局限，計算機可讀媒質可以包括計算機存儲媒質和通信媒質。計算機存儲媒質包括以任何方法或技術實現來存儲諸如計算機可讀指令、數據結構、程序模塊或其它數據等信息的易失和非易失、可移動和不可移動媒質。計算機存儲媒質包括但不限於RAM、ROM、EEPROM、快閃記憶體或其它存儲技術、CD-ROM、數字多功能盤(DVD)或其它光碟存儲器、磁盒、磁帶、磁碟存儲器或其它磁存儲設備、或其它任何可以用來存儲所需信息並可以由計算機20存取的媒質。通信媒質通常在諸如載波或其它傳輸機制等已調製數據信號中包含計算機可讀指令、數據結構、程序模塊或其它數據，並包括任何信息傳遞媒質。術語「已調製數據信號」是指其一個或多個特徵以在信號中編碼信息的方式被設置或改變的信號。作為例子而非局限，通信媒質包括諸如有線網絡或直接有線連接等有線媒質，和諸如聲學、射頻、紅外或其它無線媒質等無線媒質。上面任何媒質的組合也應該被包括在計算機可讀媒質的範圍內。
圖2提供了用於按照本發明的一個實施例標識呼叫者的可以在參考圖1所描述的通用環境中實現的模塊100的系統的更詳細的方框圖。系統100包括接收器102，用於接收從呼叫者到接收者的呼叫的輸入語音信號。輸入語音信號可以是模擬信號或數位訊號的任何形式。輸入語音信號可以通過任何通信方法經由任何傳輸媒質被傳輸到接收器102。「接收者」可以是例如個別人、一群人、呼叫路由位置或信息資料庫。
接收器102可以包括任何合適的接收器，以接收正在傳輸的語音輸入信號的類型。例如，隨著啟用電話的個人計算機(PC)和附加電話的袖珍PC的出現，接收器102可以包括用於耦合到LAN 51的網絡適配器53，或用於耦合到數據機54和WAN 52的串行埠接口46。
如果輸入語音信號是模擬信號，則系統100包括模—數轉換器(A/D)104，以把信號轉換為一系列數字數值。在一個實施例中，A/D轉換器104以16kHz對模擬信號進行採樣，從而產生每秒16千比特的語音數據。但是，也可以使用任何其它採樣率。
表示輸入語音信號樣值的數位訊號被提供被計算機20。計算機20包括特徵提取模塊106、語音識別器(例如解碼器)107、訓練器模塊108、詞典模塊109、語言模型庫110、聲學模型庫111、呼叫者標識模塊112、呼叫路由器113和提示—響應模塊114。計算機20的元件被耦合到例如輸出設備115和I/O設備116。
應該注意到，整個系統100或系統100的一部分可以在圖1所示的環境中實現。特徵提取模塊106和訓練器模塊108可以是計算機20中的硬體模塊或存儲在圖1所示的任何信息存儲設備中並可以由CPU21或另一合適的處理器存取的軟體模塊。另外，詞典存儲模塊109、聲學模型111和語言模型110也可以較佳地存儲在圖1所示的任何合適的存儲設備中。另外，搜尋引擎107可以在CPU 21中實現，CPU 21可以包括一個或多個處理器，或可以由個人計算機20使用的專用語音識別處理器實現。另外，輸出設備112和I/O設備113可以包括圖1所示的任何I/O設備，例如鍵盤40、定位設備43、監視器47、印表機或圖1所示的任何存儲設備。
由接收器102接收或由A/D轉換器104生成的數位訊號被提供給特徵提取模塊106。在一個實施例中，特徵提取模塊106包括常規陣列處理器，它對數位訊號進行頻譜分析並為頻譜的每一頻段計算幅度值。
特徵提取模塊106把數位訊號分割成幀，每幀包括多個數字樣點。在一個實施例中，每幀持續時間約是10毫秒。然後，幀被編碼成反映多個頻段的頻譜特徵的特徵矢量。在離散和半連續隱馬爾可夫建模的情況下，特徵提取模塊106也使用矢量量化技術和源自訓練數據的碼本把特徵矢量編碼成一個或多個碼字。這樣，特徵提取模塊106在其輸出為每一發音提供特徵矢量(或碼字)。特徵提取模塊106較佳地以例如約每10毫秒一個特徵矢量的速率提供特徵矢量。
特徵提取模塊的例子包括用於執行線性預測編碼(LPC)、LPC導出的倒譜、感知線性預測(PLP)、聽覺模型特徵提取、Mel-頻率倒譜係數(MFCC)特徵提取的模塊。注意，本發明不限於這些特徵提取模塊，在本發明的上下文中其它模塊也可以被使用。
由特徵提取模塊106產生的特徵矢量流被提供給語音識別器107，語音識別器107基於特徵矢量流、庫111中的一個或多個聲學模型、庫110中的一個或多個語言模型和詞典105來標識最可能的語音單元序列，例如單詞或音素。呼叫者標識模塊112通過把話音輸入的特徵矢量應用到由語音識別器107標識的存儲在庫111中的通用和呼叫者專用的語音單元模型，把呼叫者標識為新呼叫者或先前被標識的呼叫者。在一個實施例中，呼叫者標識模塊112也使用存儲在庫110中的通用和呼叫者專用的語言模型以幫助標識。模塊112輸出呼叫者身份和/或最可能的發音單詞序列的文本到呼叫路由器113，或把這些結果存儲在例如圖1所示的存儲設備之一中。結果也可以通過I/O設備115被輸出到用戶或操作者。然後呼叫路由器113可以基於呼叫者身份和/或呼叫的內容篩選該呼叫或把該呼叫路由到一個或多個選中的目標。
聲學模型是指示特徵矢量序列由在假設語音單元序列中發現的特定聲學單元序列產生的可能性的模型。在本發明的某些實施例中，每一語音單元可以包括任何常用的聲學單元，例如音位、音素、雙音素、音節或單詞。在某些實施例中，每一語音單元是一組子單元的組合。
如上所述，聲學模型庫111包括每一先前被標識的呼叫者的至少一個聲學模型，和代表各種說話人的語音特徵的通用模型。每一聲學模型包括所要檢測的多個預定義語音單元的一組模型，例如隱馬爾可夫模型(HMM)。例如，每一HMM可以模擬單個音素。在一個實施例中，語音識別器107把自特徵提取模塊106接收的特徵矢量應用到通用聲學模型，以確定表徵特示矢量，從而表示接收自呼叫者的發音的最可能音素。
在被用來解碼輸入特徵矢量序列之前，訓練典型聲學模型。例如，在圖2中，這種訓練可以由訓練器108基於訓練文本118、來自聲學模型的以前的模型參數和來自特徵提取器106的訓練特徵矢量來完成。在本發明的某些實施例中，通用聲學模型使用代表一組通用發言人的通用訓練文本來訓練。然後這個通用聲學模型可以用來形成呼叫者專用聲學模型，其中，用為該呼叫者生成的每組特徵矢量來更新HMM。在一個實施例中，基於單個發音，例如一個或多個音素的發音，可以為特定呼叫者生成唯的一聲學模型。隨著從該呼叫者接收到更多呼叫和發音，該呼叫者對應的聲學模型繼續被更新。
語音識別器引擎107也可以訪問存儲在庫110中的一個或多個語言模型，以幫助標識由輸入數據表示的最可能的單詞或單詞序列。庫110可以存儲一通用、呼叫者不相關的語言模型，和/或多個呼叫者專用的語言模型。在一個實施例中，每一語言模型包括與上下文無關的語法(CFG)或統計n字母組(n-gram)模型，例如三字母組。三字母組模型基於序列的三單詞片段的組合概論來確定單詞序列的概率。這種語言模型可以被修改為向每一先前被標識的呼叫者提供唯一模型，如下文詳細論述的。呼叫者專用語言模型可以被用來幫助計算機20標識由特定呼叫者經常使用的單詞或主題。
通用語言模型可以包括六萬單詞的三字母組語言模型，例如，源自北美商務新聞，並在題為「CSR-III文本語言模型(CSR-III Text Language Model)」，賓夕法尼亞大學，1994，的出版物中詳細陳述。
圖3-5說明一組特徵矢量的形成，以及隱馬爾可夫模型的細節，它們可以按照本發明的一個實施例被使用。圖3所示是從呼叫者接收的作為時間的函數的聲學輸入「波」的波形圖。如上所述，聲學輸入被劃分成多個幀，其每一個長例如10毫秒。特徵提取模塊106為每一10毫秒幀生成一組特徵矢量O[k]，k＝1，2，...，如圖4所示。特徵矢量O[k]通常是聲學輸入「波」的快速傅立葉變換(FFT)的某種變換，以10毫秒的時隙被加窗。FFT係數反映語音特徵，例如說話人的基音或聲腔。然後，這些特徵矢量可以被應用到對應聲學模型的隱馬爾可夫模型。
圖5所示是一個語音單元(例如音素、音位或三字母組等)的基本隱馬爾可夫模型(HMM)的狀態圖。基本HMM模型是語言不相關單元，它表示發音的聲學特性。每一狀態可以保持在當前狀態，或轉移到模型中的下一個狀態。每一語音單元有三個狀態，在圖5中被標記為S1、S2和S3，表示語音單元的「開始」狀態、「主要」狀態和「結束」狀態。每一狀態可以只保持在當前狀態，或沿圖5的箭頭轉移到下一個狀態。從一個狀態向下一個狀態的轉移有P(S1|S2)的概率，P(S1|S2)表示在給定當前狀態S1時從狀態S1向狀態S2轉移的條件概率。每一狀態還有概率分布B[i]，i＝1到3，表示任何特徵矢量O[k]的「輸出概率」(在0和1之間的數)，它反映觀察到任何可能的特徵矢量的可能性。例如，概率分布可以是高斯分布。
庫111中的每一聲學模型包括每一音素的這種隱馬爾可夫模型的集合。例如，之前有音素「B」並之後有音素「H」的音素「AX」(符號B-AX+H，如「bah」中)和之前有音素「L」並之後有音素「H」的音素「AX」(符號L-AX+H，如「blah」的最後部分中)不同。
在使用現有聲學模型進行語音識別時，系統的初始狀態以概率1為S1，而概率P[i|j]和概率密度B[i]對HMM中的每一狀態是已知的。在識別音素時，聲學輸入被轉換成特徵矢量o[k]的序列，語音識別器107(在圖2中示出)確定給定當前HMM模型時的概率P[o[k]|模型]是多少。
換言之，語音識別器107確定由輸入特徵矢量序列表示的聲音實際上有多大可能是由考慮中的當前HMM建模的音素。由具有最大概率的HMM建模的音素被標識為是所發出的音素。
在訓練聲學模型時，例如在訓練通用模型或更新呼叫者專用的模型時，假設聲學輸入「波」以及隨後的特徵矢量o[k]序列是已知的。語音識別器107(或呼叫者標識模塊112)生成得觀察每一音素的O[k]輸出序列的最大概率的模型(每一狀態的P′[i|j]和B′[i])。例如，在一個實施例中，呼叫者標識模塊112使用鮑姆—韋爾奇(Baum-Welch)HMM重估方法來更新或者調整通用聲學模型，以反映特定說話人的特徵。例如，特定說話人的聲學模型最初可以包括通用聲學模型的通用HMM模型，然後，在當前呼叫中發生的音素的HMM模型可以通過鮑姆—韋爾奇HMM重估方法來更新，以反映該呼叫者的語音特徵。
圖6所示是可以在本發明的一個實施例使用中的簡化語言模型的例子的圖。在構建三字母組語言模型時，第一步是收集代表語言的大量文本。第二步是構建每一單詞W的頻數P1[W]、每一雙字母組(詞對)的頻數P2[W|W0]、每一三字母組的頻數P3[W|W1，W2]。語音識別器也可以由具有對應語言中可能單詞列表的詞典(WD)進行限制。下一步，使用折扣策略(discounting strategy)來避免使用所有可能的雙或三單詞序列，因為它們的數量太大。詞典中的所有單詞都被分解成音素，以由類似於圖5所示的音素HMM來表示其特徵。
下一步，通過粘合音素HMM並調整初始概率，以按照該HMM模型的P[W|W1，W0]進入它們的每一起始狀態(S1)，從而創建主HMM。在圖6所示的簡化例子中，只看到過兩個單詞「at」和「the」，每個詞只看到過一次。這樣，主HMM將會有獨特的啟始狀態S0，它具有初始概率「1」，以及到「AX」音素HMM和到「TH」音素HMM的轉移概率「0.5」。由於只有兩個詞，「AX」HMM有到「T」HMM的轉移概率1.0，「TH」HMM有到「EH」HMM的轉移概率1.0。「TH」HMM和「EH」HMM轉移到結束狀態S3。
在本發明的一個實施例中，通過調整通用語言模型來為每一唯一標識的呼叫者建立唯一語言模型。通過使用所識別的短語以及從該呼叫者的呼入中收集的「大量文本」來調整通用語言模型。這個過程並不發現新單詞，而是發現新概率P[W|W1，W0]，因為任何特定呼叫者比其它呼叫者更有可能使用某些單詞的組合。另外，在所有實施例中不需要在常規意義上收集「單詞」。在一個實施例中，語言模型以與微軟公司供應的有其口述語言模型的MS識別器相似的方式收集「單詞」。在可選實施例中，語言模型可以僅收集「音素」作為「單詞」的音素小組，這和有其發音語言模型的MS識別器相似。後面的實施例有即使呼叫者發出諸如名字等不知道的單詞也能提供音素序列的有用概率的優點，但準確度較低。
圖7所示是由計算機執行的過程200的流程圖，過程200可以作為指令被存儲在例如計算機可讀媒質中並可以由計算機20執行(在圖1中示出)。按照本發明的一個實施例，過程200通過為每一被標識的呼叫者生成唯一聲學模型來標識到一個或多個接收者的電話呼叫的呼叫者。
在步驟201，來自呼叫者的呼入呼叫被接收。在步驟202，常規呼叫者身份(callerID)系統被用來捕捉呼入呼叫的電話號碼。如果該電話號碼和先前定義的可信電話號碼相匹配，則在步驟203，系統輸出指示檢測到可信電話號碼的信號。呼叫者身份系統可以被用來標識來自可信源的呼叫，並提供過程200的提早退出，使得從該源接收的呼叫不會被過程200延遲。在步驟203生成的信號可以任何合適的方式使用，例如用來將呼入呼叫路由到特定郵箱，或通過允許該呼叫被路由到接收者的啟用電話的設備。
如果呼入呼叫不是可信的，或系統沒有用步驟202來配置，則在步驟204，話音輸入被應用到語音識別器模塊107(在圖2中示出)，以分割成已知音素序列。特徵提取模塊106(也在圖2中示出)從話音輸入生成對應的特徵矢量，並把該特徵矢量應用到通用、上下文無關語法(CFG)模塊和呼叫者不相關通用聲學模型(在圖7中被標記為「I-AM」)。上下文無關語法模塊可以包括例如自由形態的口述模型或發音隨機語言模型。CFG允許任何發音的識別。CFG不必要生成發音的文本形式，只要它產生適度準確的音素分段。
呼叫者不相關、通用聲學模型I-AM可以包括能夠對任何呼叫者起作用的模型。這種通用聲學模型有時被稱為「性別無關」的聲學模型，它對男、女或兒童呼叫者都起作用。
使用CFG和呼叫者不相關通用聲學模型I-AM，語音識別器把語音輸入分割成所識別的音素的序列。
例如，如果話音輸入包括「I am calling…(我正在呼叫……)」，則語音識別器就生成發音的文本形式(「I am calling…」)加上音素分段(「IXsilAX MsilCAX L IX N G」)。
在步驟205，呼叫者標識模塊112(圖2)確定該呼叫者是新的呼叫者還是先前所標識的呼叫者。這個過程參考圖8在下文詳細描述。如果該呼叫者是新的呼叫者，則過程200轉移到步驟206，在步驟206，呼叫者標識模塊112把新的聲學模型AM[i]添加到聲學模型庫(圖2)，並對模型數量變量NUMMODELS(即先前所標識的呼叫者的數量)遞增一。呼叫者標識模塊112通過製作通用聲學模型AM
的副本然後如上所述地更新由呼入呼叫中的呼叫者發音的任何音素的HMM，的生成新的聲學模型AM[i]。
在步驟207，呼叫者標識模塊112輸出指示「新的呼叫者」的信號，該信號可以被呼叫路由模塊113(也在圖2示出)或另一呼叫管理系統使用以按照要求指引該呼叫。呼叫者標識模塊112也可以存儲表示語音輸入的聲音文件和對應的文本(如果在步驟204得到識別)。
在一個實施例中，在步驟208，呼叫者標識模塊112要求通過I/O設備115(圖2)的呼叫者/文本識別的手動檢查。用戶或系統操作者可以審閱該呼叫的文本、聽該呼叫的聲音和/或察看呼叫者標識，並通過I/O設備115做出任何糾正。例如，用戶可以審閱和丟棄呼叫，或者接受或否定標識模塊所做的分類。在步驟207之後，過程200返回到步驟201，以接收另一個呼入呼叫。
如果在步驟205，呼叫者標識模塊112標識該呼叫者不是新的呼叫者，則過程200轉移到步驟210，以標識哪一個先前所標識的呼叫者再次呼叫。呼叫者標識模塊112確定和該呼入呼叫的發音中的語音特徵最接近匹配的呼叫者專用聲學模型。在一個實施例中，呼叫者標識模塊112把話音特徵(例如特徵矢量)應用到每個呼叫者專用聲學模型中的對應的HMM，並標識有最佳聲學分數的聲學模型AM[j]，j＝0到NUMMODELS，如圖8中詳細描述的那樣。在步驟211，呼叫者標識模塊112輸出指示「檢測到呼叫者j」的信號，其中「j」對應步驟210中有最佳聲學分數的聲學模型。
圖8所示是按照本發明的一個實施例在圖7的步驟205中新的呼叫者或先前標識的呼叫者的檢測的流程圖。該過程在300進入步驟205。在步驟301，呼叫者標識模塊112確定先前標識的呼叫者的聲學模型數量NUMMODELS是否大於0。如果不是，則當前呼入呼叫的呼叫者就是新的呼叫者，而過程205就在步驟302退出。如果先前標識的呼叫者的數量NUMMODELS大於0，當前呼叫者就可能是新的呼叫者或先前標識的呼叫者之一。然後過程轉移到步驟303。
在步驟303，呼叫者標識模塊112為聲學模型庫111中的每個聲學模型AM[j](j＝0到NumModels)下的當前發音計算聲學或「alpha」分數A[j]，其中模型AM
是呼叫者不相關的通用模型I-AM。alpha分數被稱為「前向通過分數」，它是由在圖7的步驟204中產生的分段上使用聲學模型AM[j]時運行語音識別器解碼器或搜索樹所得的聲學分數(通過呼叫者不相關模型AM
)。
在步驟303，呼叫者標識模塊112確定通用聲學模型AM
的alpha分數是否有最大的(或者最好的)alpha分數。如果當前發音比任何呼叫者專用聲學模型更匹配通用聲學模型，則該呼叫者就被標識為新的呼叫者，過程在步驟305退出。如果通用聲學模型的alpha分數A
不是最大的alpha分數，則該呼叫者就被標識為先前被標識的呼叫者之一，而呼叫者標識模塊112轉移到步驟306，以標識特定呼叫者。
假設變量「k」等於其alpha分數A[j]為最大的索引(k＝argmax(A[j]))，則呼叫者k被標識為該呼叫者，而呼叫者「k」的對應的呼叫者專用聲學模型AM[k]被更新，以反映該新發音的語音特徵。以這種方式，每次呼入呼叫都被先前所標識的呼叫者接收，該呼叫者的對應的聲學模型基於該呼叫中包含的聲學單元被進一步訓練，以更好地表示該呼叫者的語音特徵。在呼叫者專用聲學模型被更新後，過程在步驟205退出。
在一個實施例中，呼叫者專用聲學模型AM[k]可以用小至一個發音來創建或更新，這和常規語音識別或口述軟體通常要求通過大量發音以及發音的反覆來訓練相反。單個發音訓練可以用當前可用的語音識別軟體，例如微軟MS識別器，通過多次重複聲音輸入並把它重複應用到MS識別器，或通過重新配置MS識別器以用信號發音訓練來完成。其它類型的語音識別器或解碼器也可以被使用在替代性實施例中。
在一個替換實施例中，步驟304可以通過把當前話音輸入分割成若干子段，例如兩個子段，並用每一聲學模型為兩個子段計算兩個alpha分數A0[j]和A1[j]，來被進一步細化。步驟304隻有在A0[j]和A1[j]對同一個索引k都有最大值(argmax(AM[k]))才會返回「否」(通用模型沒有最高聲學分數)。這個過程有益於對在話音輸入中有一個以上說話人的呼叫進行濾波，並有益於進一步細化識別過程。
圖9所示是訓練呼叫者專用語言模型(「概率性CFG」)以按呼叫的內容(而不是按聲學)來檢測用戶的過程400的流程圖。過程400可以和圖7所示的過程200一起被用來提高呼叫者標識的準確度，或作為標識呼叫者的替代方法。在步驟401，呼入呼叫被接收。在步驟402，過程400通過運行圖7所示的聲學呼叫者標識過程得到聲學呼叫者標識。在步驟403，過程400把該呼叫(如被圖2中的語音識別器107分割)的所標識的「文本」添加到對應的呼叫者專用語言模型的呼叫者文本庫。步驟403對應參考圖6所描述的「收集大量文本」的步驟。
在步驟404，過程400確定在特定呼叫者文本庫中是否有足夠的單詞來訓練語言模型LM(i)。如果沒有，則過程400返回到步驟401，以接收更多的來自該呼叫者的呼入呼叫。如果有足夠數量的單詞，則過程400按照參考圖6所述的過程來訓練新的語言模型LM[i](用於呼叫者「i」)，並在步驟405把LM[i]添加到語言模型庫110。然後，過程400把呼叫者專用語言模型的數量NUMLMMODELS加上一。
在步驟406，過程400輸出指示「新語言模型」的信號，並可以在步驟407要求系統用戶作呼叫和文本識別的手動審閱。用戶可以通過I/O設備115(圖2所示)審閱和修訂數據。然後過程400返回到步驟401，以接收進一步的呼入呼叫。
過程400示出圖7中所示的聲學呼叫者標識過程可以如何被用於為每個唯一的用戶構建對應的語言模型。為了使用語言模型來標識呼叫者，一旦訓練好足夠多的語言模型，呼叫者標識模塊112就只要運行語音識別器模塊107，而通用聲學模型和每個呼叫者專用語言模型LM[i]被輪流激活。產生有最高概率的文本識別的語言模型對應於當前呼叫者。
使用呼叫者專用語言模型去標識呼叫者將標識當前呼叫的內容和呼叫者專用語言模型LM[i]之一的語義相似度。但是，情況可能是當前呼叫者是談論和呼叫者「i」所談論的同一主題的不同呼叫者(不是呼叫者「i」)。所以，呼叫者專用語言模型較佳地和特定呼叫者聲學模型一起使用，以正確標識唯一的呼叫者。例如，在向標識系統報告結果時，可向圖7所示的聲學呼叫者標識過程給予比圖9中被訓練的語言模型呼叫者標識過程更大的權值。例如，如果兩個標識方法產生不同的結果，則僅當語言模型檢測結果比最高得分聲學模型的呼叫者專用聲學分數有更高的概率時，才會使用它。此外，呼叫中心的系統用戶或操作者可以不考慮聲學模型標識子系統或語言模型標識子系統所做出的任何分類。
圖7-9所示的呼叫者標識過程可為被誤認為「新呼叫者」的呼叫者創建多個聲學和語言模型。例如，在來自同一呼叫者的兩個或多個不同的呼叫的音素或主題不重疊時，就可能發生這一情況。由於聲學和語言模型繼續用來自先前被標識的呼叫者的每個相繼的新呼叫來訓練，因此對應同一呼叫者的模型將開始彼此重疊隨後並然後可以被合併。呼叫者標識系統可以包括一合併模塊，它周期性地審閱所有呼叫者專用模型以基於預定義的標準確定是否有任何模型應該被合併。例如，這些標準可以是給定特徵矢量組的模型概率的相似度。
更具體地，音素HMM通常使用由均值矢量和方差矩陣確定的多維高斯分布(在特徵矢量空間)為狀態轉移概率建模。合併模型可以簡單地為每個用戶的對應音素聚集所述均值矢量和/或方差矩陣，並查看它們是否足夠相近以作合併(使用距離函數，如Bhattacharya距離，它最適合比較概率函數分離，不象常規的Euclidean距離)。
此外，呼叫者標識系統可以(在知道兩個已被訓練的AM彼此太相近後)存儲「前任」AM(在圖8中的步驟306用作輸入到訓練模塊的那一個)以及被用來訓練的「波」(當前用戶輸入)，而只在「手動審閱」(如圖7的步驟208中)來自所述兩個呼叫者的樣點話音輸入後應用訓練。這防止由於已訓練的呼叫者專用AM成為來自錯誤呼叫者的反饋話音輸入而導致它們逐步退化。到底什麼是「太相近」可以使用任何可用的用戶標識任務的主體被實驗性地量化(屬於大量人的大量電話呼叫/「波」文件)。
上述呼叫者標識過程的一個優點是系統能夠用少至來自呼叫者的單個發音來標識呼叫者。從那個發音創建新的呼叫者專用聲學模型，以標識來自該呼叫者的更多呼叫。同樣，即使呼叫者不配合用來路由呼入呼叫的任何提示—響應機制，系統也能夠標識呼叫者。任何發音的聲學特徵，不管該發音是不是提示的正確應答，都為該呼叫者建模。另外，系統能夠在不警告呼叫者有標識過程的情況下來標識呼叫者。例如系統可以被用來從來自已知呼叫者的期望呼叫中輕易慮去不想要的電話推銷員的呼叫。
同樣，大呼叫中心可以使用這個系統以更有效地把呼叫路由到正確的接收者或信息資料庫。一些呼叫中心要求呼叫者在被路由到正確的目標前通過冗長的提示迷宮。本系統可以為先前標識的呼叫者提供基於該呼叫者的聲波紋和接收人或先前呼叫的主題從提示—響應機制的快速退出。對這種呼叫者標識系統存在大量其它應用。
雖然本發明是參考優選實施例描述的，但是本領域的技術人員會認識到，可以作形式或細節上的變化而不脫離本發明的精神和範圍。
權利要求
1.一種標識從呼叫者到接收者的呼叫的呼叫者的方法，其特徵在於，所述方法包括(a)從所述呼叫者接收話音輸入；(b)把所述話音輸入的特徵應用到多個聲學模型以獲得多個對應的聲學分數，所述多個聲學模型包括一通用聲學模型和任何先前標識的呼叫者的聲學模型；(c)基於所述多個聲學分數，把所述呼叫者標識為所述先前標識的呼叫者之一或新的呼叫者；以及(d)如果在步驟(c)中所述呼叫者被標識為新的呼叫者，則為所述新的呼叫者生成一新的聲學模型，該模型對所述新的呼叫者是專用的。
2.如權利要求1所述的方法，其特徵在於，所述(c)中的標識包括(c)(1)如果所述相應的聲學模型的聲學分數好於所述通用聲學模型的聲學分數，則把所述呼叫者標識為所述先前標識的呼叫者之一；(c)(2)如果所述通用聲學模型的聲學分數好於所述多個先前標識的呼叫者的聲學模型的聲學分數，則把所述呼叫者標識為新的呼叫者。
3.如權利要求1所述的方法，其特徵在於步驟(a)包括使用所述通用聲學模型把所述話音輸入分割成識別的語音單元序列；所述多個聲學模型的每一個包括在步驟(a)中分割的所述語音單元的模型；以及步驟(b)包括把所述話音輸入的特徵應用到步驟(d)中所分割的所述語音單元的模型的序列。
4.如權利要求1所述的方法，其特徵在於，所述多個聲學模型的每一個包括語音單元的模型，並且其中，所述方法還包括(e)如果在步驟(c)所述呼叫者被標識為所述先前標識的呼叫者之一，則通過基於所述語音輸入的特徵修改被包括在所述語音輸入中的語音單元的模型，來更新所述先前標識的呼叫者的對應的聲學模型。
5.如權利要求4所述的方法，其特徵在於，步驟(e)包括基於小至單個發音來修改被包括在所述話音輸入中的語音單元的模型。
6.如權利要求1所述的方法，其特徵在於，它還包括(e)和所述多個聲學模型一道把所述新的聲學模型存儲在一聲學模型庫中，使得所述新的聲學模型成為步驟(b)中的所述多個聲學模型之一，而所述新的呼叫者作為先前標識的呼叫者被包括在內。
7.如權利要求1所述的方法，其特徵在於，所述通用聲學模型包括多個語音單元的呼叫者不相關模型，並且其中，步驟(d)包括(d)(1)從所述通用聲學模型的呼叫者不相關模型生成所述新的聲學模型，並修改被包括在所述語音輸入中的語音單元的呼叫者不相關模型，以表示接收自所述新的呼叫者的話音輸入的特徵。
8.如權利要求1所述的方法，其特徵在於，執行步驟(a)到(c)，而不使所述呼叫者在所述呼叫期間警覺到所述呼叫者正被標識。
9.如權利要求1所述的方法，其特徵在於步驟(b)包括將所述語音輸入分割成子段，並把所述每一子段的特徵應用到所述多個聲學模型，以得到表示所述每一分段中的特徵與所述對應的聲學模型的匹配程度的多個對應的聲學分數；以及步驟(c)包括，對每一子段，標識具有該子段的最好聲學分數的聲學模型，並僅當所有子段的最好聲學分數對應於同一先前標識的呼叫者時，把所述呼叫者標識為所述先前標識的呼叫者之一。
10.如權利要求1所述的方法，其特徵在於，它還包括(e)基於那些呼叫者的所述話音輸入，為所述先前標識的呼叫者的每一個維護一呼叫者專用語言模型；(f)把所述話音輸入的特徵應用到所述通用聲學模型和所述呼叫者專用語言模型的每一個，以產生多個已被識別的語音單元序列；(g)選擇相對其它所述已被識別的語音單元序列有最高概率的已被識別的語音單元序列；以及(h)至少部分地基於有所述最高概率的已被識別的語音單元序列來標識所述呼叫者。
11.如權利要求10所述的方法，其特徵在於，它還包括(i)如果步驟(h)所標識的呼叫者和步驟(c)所標識的呼叫者不同，則生成對下列的至少一個的手動審閱的用戶提示所述話音輸入、所述已被識別的語音單元序列、所述被標識的呼叫者、步驟(c)所標識的呼叫者的聲學模型、以及步驟(h)所標識的呼叫者的呼叫者專用語言模型。
12.如權利要求1所述的方法，其特徵在於，它還包括(e)使用所述先前標識的呼叫者的多個聲學模型之間的一距離量度，以標記某些聲學模型用於合併在一起。
13.如權利要求12所述的方法，其特徵在於，步驟(e)包括標記所述某些聲學模型用於手動檢查。
14.一種標識從呼叫者到接收者的呼叫的所述呼叫者的系統，其特徵在於，所述系統包括一接收器，用於從所述呼叫者接收話音輸入；一聲學模型庫，它包括多個聲學模型，包括一通用聲學模型和任何先前標識的呼叫者的聲學模型在內；用於把所述話音輸入的特徵應用到所述多個聲學模型以產生多個相應的聲學分數的裝置；用於基於所述多個聲學分數把所述呼叫者標識為所述先前標識的呼叫者之一或新的呼叫者的裝置；以及一聲學模型生成器裝置，用於如果所述通用聲學模型的聲學分數好於所述多個先前標識的呼叫者的聲學模型的聲學分數，則為所述新的呼叫者生成新的聲學模型。
15.如權利要求14所述的系統，其特徵在於所述系統還包括一語音識別器，它使用所述通用聲學模型把所述話音輸入分割成所識別的語音單元的序列；所述多個聲學模型的每一個包括由所述語音識別器識別的語音單元的模型；以及用於應用的所述裝置包括用於把所述話音輸入的特徵應用到由所述語音識別器為所述多個聲學模型分割的所述語音單元的模型的序列的裝置。
16.如權利要求14所述的系統，其特徵在於所述多個聲學模型的每一個包括語音單元的模型；以及所述系統還包括一聲學模型更新模塊，如果所述呼叫者被標識為所述先前標識的呼叫者之一，則所述聲學模型更新模塊通過基於所述語音輸入的特徵修改被包括在所述語音輸入中的語音單元的模型，來更新所述先前標識的呼叫者的相應的聲學模型。
17.如權利要求16所述的系統，其特徵在於，所述聲學模型更新模塊能夠基於來自所述呼叫者的小至單個發音來修改被包括在所述話音輸入中的語音單元的模型。
18.如權利要求14所述的系統，其特徵在於，所述聲學模型生成器裝置把所述新的聲學模型存儲在所述聲學模型庫中，使得所述新的聲學模型成為所述多個聲學模型之一，並且所述新的呼叫者作為先前標識的呼叫者被包括在內。
19.如權利要求18所述的系統，其特徵在於所述通用聲學模型包括多個語音單元的呼叫者不相關模型；以及所述聲學模型生成器從所述通用聲學模型的呼叫者不相關模型生成所述新的聲學模型，並修改被包括在所述語音輸入中的語音單元的呼叫者不相關模型，以表示自所述新的呼叫者接收的話音輸入的特徵。
20.如權利要求14所述的系統，其特徵在於，所述系統被配置成接收所述話音輸入並標識所述呼叫者，而在所述呼叫期間不使所述呼叫者警覺到所述呼叫者正被標識。
21.如權利要求14所述的系統，其特徵在於用於應用的所述裝置包括用於將所述語音輸入拆分成子段，並把每一子段的特徵應用到所述多個聲學模型，以得到表示所述每一分段中的特徵與所述對應的聲學模型的匹配程度的多個對應的聲學分數的裝置；以及用於標識的所述裝置包括，對每一子段，用於標識具有該子段的最好聲學分數的聲學模型的裝置，和用於僅當所有子段的最好聲學分數對應於同一先前標識的呼叫者時把所述呼叫者標識為所述先前標識的呼叫者之一的裝置。
22.如權利要求14所述的系統，其特徵在於，它還包括一語言模型庫，用於基於來自那些呼叫者的所述話音輸入為所述先前標識的呼叫者的每一個存儲一呼叫者專用語言模型；用於把所述話音輸入的特徵應用到所述通用聲學模型和所述呼叫者專用語言模型的每一個以產生多個已被識別的語音單元序列的裝置；以及用於選擇相對其它已被識別的語音單元序列有最高概率的已被識別的語音單元序列的裝置，其中，用於標識的所述裝置至少部分地基於有所述最高概率的已被識別的語音單元序列來標識所述呼叫者。
23.如權利要求22所述的系統，其特徵在於，用於標識的所述裝置包括用於生成對下列至少一個的手動審閱的用戶提示的裝置(1)所述話音輸入，有所述最高概率的已被識別的語音單元序列、(2)產生有所述最高概率的已被識別的語音單元序列的呼叫者專用語言模型、(3)有所述最好聲學分數的聲學模型，如果有所述最高概率的呼叫者專用語言模型和(3)中有所述最好聲學分數的聲學模型對應不同的呼叫者
24.如權利要求14所述的方法，其特徵在於，它還包括基於所述多個聲學模型之間的一距離量度標記某些聲學模型用於合併在一起的裝置。
25.如權利要求24所述的方法，其特徵在於，用於標記的所述裝置包括標記所述某些聲學模型用於手動檢查的裝置。
26.一種包括計算機可執行指令的計算機可讀媒質，其特徵在於，當所述指令由計算機執行時，執行以下方法(a)接收來自呼叫者的呼叫的話音輸入；(b)把所述話音輸入的所述特徵應用到多個聲學模型，所述多個聲學模型包括一通用聲學模型和任何先前標識的呼叫者的聲學模型，以得到表示所述特徵與所述對應的聲學模型的匹配程度的多個對應的聲學分數；(c)基於所述多個聲學分數，把所述呼叫者標識為所述先前標識的呼叫者之一或新的呼叫者；以及如果在步驟(c)所述呼叫者被標識為新的呼叫者，則為所述新的呼叫者生成一新的聲學模型，它對所述新的呼叫者是專用的。
27.如權利要求26所述的計算機可讀媒質，其特徵在於步驟(a)包括使用所述通用聲學模型把所述話音輸入分割成所識別的語音單元的序列；所述多個聲學模型的每一個包括在步驟(a)中分割的所述語音單元的模型；以及步驟(b)包括把所述話音輸入的特徵應用到步驟(a)中為所述多個聲學模型分割的所述語音單元的模型的序列。
28.如權利要求26所述的計算機可讀媒質，其特徵在於，所述多個聲學模型的每一個包括語音單元的模型，並且其中，所述方法還包括(e)如果在步驟(c)所述呼叫者被標識為所述先前標識的呼叫者之一，則通過基於所述語音輸入的特徵修改被包括在所述語音輸入中的語音單元的模型，來更新所述先前標識的呼叫者的相應的聲學模型。
29.如權利要求26所述的計算機可讀媒質，其特徵在於，所述方法還包括(e)和所述多個聲學模型一起把所述新的聲學模型存儲在一聲學模型庫中，使得所述新的聲學模型成為步驟(b)中的所述多個聲學模型之一，並且所述新的呼叫者作為先前標識的呼叫者被包括在內。
30.如權利要求29所述的計算機可讀媒質，其特徵在於，所述通用聲學模型包括多個語音單元的呼叫者不相關模型，並且其中，步驟(d)包括(d)(1)從所述通用聲學模型的呼叫者不相關模型生成所述新的聲學模型，並把修改被包括在所述語音輸入中的語音單元的呼叫者不相關模型，以表示自所述新的呼叫者接收的話音輸入的特徵。
31.如權利要求26所述的計算機可讀媒質，其特徵在於，所述方法還包括(e)為所述先前標識的呼叫者的每一個維護一呼叫者專用語言模型；以及(f)至少部分地基於由自所述話音輸入的呼叫者專用語言模型產生的已被標識的語音單元序列的概率來標識所述呼叫者。
32.如權利要求31所述的計算機可讀媒質，其特徵在於，所述方法還包括(g)如果步驟(f)所標識的呼叫者和步驟(c)所標識的呼叫者不同，則生成對下列至少一個的手動審閱的用戶提示所述話音輸入、所述已被識別的語音單元序列、所述已被標識的呼叫者、步驟(c)所標識的呼叫者的聲學模型、以及步驟(f)所標識的呼叫者的呼叫者專用語言模型。
33.如權利要求26所述的計算機可讀媒質，其特徵在於，所述方法還包括(e)使用所述先前標識的呼叫者的多個聲學模型之間的一距離量度，以標記某些聲學模型用於合併在一起。
34.如權利要求33所述的計算機可讀媒質，其特徵在於，步驟(e)包括標記所述某些聲學模型用於手動檢查。
35.一種對從呼叫者到接收者的呼叫的所述呼叫者進行標識的方法，其特徵在於，所述方法包括(a)接收話音輸入；(b)使用一呼叫者不相關的、通用聲學模型把所述話音輸入分割成已識別的語音單元的序列；(c)把所述話音輸入的特徵應用到多個聲學模型中的已識別的語音單元的語音單元模型的序列，所述多個聲學模型包括一通用聲學模型和任何先前標識的呼叫者的聲學模型；以及(d)基於所述話音輸入的特徵與所述多個聲學模型的吻合程度，把所述呼叫者標識為所述先前標識的呼叫者之一或新的呼叫者。
36.如權利要求35所述的方法，其特徵在於，它還包括(e)如果在步驟(d)所述呼叫者被標識為新的呼叫者，則通過修改被包括在所述語音輸入中的語音單元的語音單元模型以表示自所述新的呼叫者接收的話音輸入的特徵，從所述通用聲學模型為所述新的呼叫者生成一新的聲學模型；以及(f)把所述新的聲學模型存儲在一聲學模型庫中，使得所述新的聲學模型成為步驟(c)中的所述多個聲學模型之一，並且所述新的呼叫者作為先前標識的呼叫者被包括在內。
37.如權利要求35所述的方法，其特徵在於，它還包括(e)基於那些呼叫者的所述話音輸入為所述先前標識的呼叫者的每一個維護一呼叫者專用語言模型；(f)把所述話音輸入的特徵應用到所述通用聲學模型和所述呼叫者專用語言模型的每一個，以產生多個已被識別的語音單元序列；(g)選擇相對其它已被識別的語音單元序列有最高概率的已被識別的語音單元序列；(h)基於有所述最高概率的已被識別的語音單元序列來標識所述呼叫者；以及(i)如果步驟(h)所標識的呼叫者和步驟(c)所標識的呼叫者不同，則生成對下列至少一個的手動審閱的用戶提示所述話音輸入、所述已被識別的語音單元序列、所述被標識的呼叫者、步驟(d)所標識的呼叫者的聲學模型、以及步驟(h)所標識的呼叫者的呼叫者專用語言模型。
38.如權利要求35所述的計算機可讀媒質，其特徵在於，所述方法還包括(e)使用所述先前標識的呼叫者的多個聲學模型之間的一距離量度來標記某些聲學模型用於合併在一起。
全文摘要
提供對從呼叫者到接收者的呼叫的呼叫者進行標識的一種方法和裝置。從所述呼叫者接收話音輸入，並將所述話音輸入的特徵應用到多個聲學模型，以得到多個對應的聲學得分，其中，所述多個聲學模型包括一通用聲學模型和任何先前被標識的呼叫者的聲學模型。基於所述多個聲學得分，所述呼叫者被標識為先前被標識的呼叫者之一或新的呼叫者。如果呼叫者被標識為新的呼叫者，就為所述新的呼叫者生成一新的聲學模型，它對所述新的呼叫者是專用的。
文檔編號G10L15/06GK1655235SQ20041008187
公開日2005年8月17日申請日期2004年12月31日優先權日2004年2月12日
發明者A·帕斯科維西申請人:微軟公司

首页

算命

星座

感情

婚姻

風水

文化

生活

生肖

百科

解夢

娛樂

社會

基於話音特徵自動標識電話呼叫者的製作方法

一種新型多功能組合攝影箱的製作方法

壓縮模式圖樣重疊檢測方法與裝置與流程

個性化檯曆的製作方法

一種實現縮放的視頻解碼方法

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

一種pe滾塑儲槽的製作方法

釘的製作方法

直流氧噴裝置的製作方法

新型熱網閥門操作手輪的製作方法

用來自動讀取管狀容器所載識別碼的裝置的製作方法