識別語音的方法
2023-09-20 19:51:50 1
專利名稱:識別語音的方法
技術領域:
本公開總體涉及識別語音的方法。
背景技術:
在包括具有一個或多個數字串的數值序列的用戶話語中協同發音問題經常是明 顯的。協同發音問題可能出現在任何口語中,尤其在基於聲調的語言中,例如,普通話、閩 語、臺灣語和粵語。例如,在英語中具有數字串「5,5,5」的數值序列在發音上等於普通話 中的「wu,wu, mi」。在一些情況下,例如,對於語音識別系統,話語「mi,wu, mi」可能會變成 "wu, mi」、「mi,er, mi」、「er,er, er」或者實際話語的一些其它類似不準確變型。
發明內容
在此公開一種識別語音的方法。所述方法涉及將包括數值序列的話語陳述給語音 識別系統,其中,所述數值序列包含了包括多個標記(token)的數字串。所述方法還涉及檢 測與數字串中的至少兩個潛在協同發音標記相關的協同發音問題。通過使用i)與數值序 列潛在相應的動態產生的可能數值序列和/或ii)至少一個補充聲學模型,來辨認數值序 列。本發明還提供了如下技術方案技術方案1. 一種識別語音的方法,包括將包括數值序列的話語陳述給語音識別系統,所述數值序列包含了包括多個標記 的數字串;檢測與所述數字串中的至少兩個潛在協同發音標記相關的協同發音問題;以及通過使用i)與所述數值序列潛在相應的動態產生的可能數值序列和/或ii)至 少一個補充聲學模型,來辨認所述數值序列。技術方案2.如技術方案1所述的方法,其中,在檢測協同發音問題之前,所述方法 還包括開發基本聲學模型,所述基本聲學模型包括多個字或表達,所述多個字或表達中 的每一個都被分配了統計數值;測試所述基本聲學模型以使用所述多個字或表達識別至少一個協同發音情況;以 及基於測試所述基本聲學模型的結果產生所述至少一個補充聲學模型。技術方案3.如技術方案2所述的方法,其中,測試所述基本聲學模型包括將一組話語陳述給所述語音識別系統;將這組話語與易混淆矩陣進行比較;以及根據所述比較,用這組話語中的至少一個話語確定常見協同發音問題的頻率。技術方案4.如技術方案3所述的方法,其中,當所述常見協同發音問題的頻率超 過預定閾值時,產生所述至少一個補充聲學模型。
技術方案5.如技術方案4所述的方法,其中,檢測與所述數字串中的所述至少兩 個潛在協同發音標記相關的所述協同發音問題,其中所述方法還包括將所述話語的聲能轉換為數字比特模式;以及將所述話語的所述數字比特模式與所述至少一個補充聲學模型中包括的模式進 行比較;以及 基於所述比較產生概率評分。技術方案6.如技術方案5所述的方法,其中,如果所述概率評分超過預定百分比, 則所述方法還包括將所述基本聲學模型切換到所述至少一個補充聲學模型。技術方案7.如技術方案1所述的方法,其中,所述至少一個補充聲學模型包括表 示至少兩個協同發音標記的串的字母。技術方案8.如技術方案1所述的方法,其中,檢測所述協同發音問題包括產生用於所述數字串的N最佳列表,所述N最佳列表包括多個可能數值序列,每個 可能數值序列潛在地相應於所述話語中陳述的數值序列,其中多個可能數值序列中的每一 個根據信任評分被分等級;辨認與所述數字串相應的所述至少兩個潛在協同發音標記;以及基於所述N最佳列表中包括的最高等級可能數值序列確定是否存在協同發音問 題。技術方案9.如技術方案8所述的方法,其中,在辨認所述至少兩個潛在協同發音 標記之後,所述方法還包括將所述最高等級數值序列陳述給話語源;以及由所述源向語音識別系統指示最高等級數值序列是錯誤的。技術方案10.如技術方案9所述的方法,其中,存在所述協同發音問題,其中所述 方法還包括對於所述至少兩個潛在協同發音標記掃描所述N最佳列表中包括的多個可能數 值序列,以從第二高等級可能數值序列開始到最低等級可能數值序列的順序完成掃描;以 及當所掃描的可能數值序列中的一個可能數值序列的信任評分與最高等級數值序 列的信任評分之間的差落入預定閾值內時,選擇該可能數值序列。技術方案11.如技術方案10所述的方法,還包括將選擇的可能數值序列陳述給話語源;以及由所述源向語音識別系統指示選擇的可能數值序列是否正確。技術方案12.如技術方案11所述的方法,其中,當確定選擇的可能數值序列正確 時,所述方法還包括應用所述選擇的可能數值序列。技術方案13.如技術方案10所述的方法,其中,當確定所述選擇的可能數值序列 錯誤時,所述方法還包括選擇所掃描的可能數值序列中的另一個可能數值序列,所述另一個可能數值序列 在N最佳列表中的等級低於先前選擇的可能數值序列;以及將所述另一個可能數值序列陳述給話語源。技術方案14.如技術方案13所述的方法,還包括
由話語源向語音識別系統指示所述另一個選擇的可能數值序列是錯誤的;請求所述源重複所述話語;以及基於重複的話語重新產生N最佳列表。技術方案15.如技術方案14所述的方法,其中,所述請求重複所述話語包括提示 話語源以預定方式陳述所述話語。技術方案16.如技術方案9所述的方法,其中,存在所述協同發音問題,其中所述 方法還包括對於所述至少兩個潛在協同發音標記掃描N最佳列表中包括的多個可能數值序 列,以從下一最高等級可能數值序列開始到最低等級可能數值序列的順序完成所述掃描;識別到所述下一最高等級可能數值序列的信任評分與最高等級數值序列的信任 評分之間的差落在預定閾值之外;以及對於所述至少兩個潛在協同發音標記重新掃描N最佳列表中包括的多個可能數 值序列,以從第三最高等級可能數值序列開始到所述最低等級可能數值序列的順序完成所 述重新掃描,並且繼續對N最佳列表進行重新掃描,直到可能數值序列之一的信任評分與 最高等級數值序列的信任評分之間的差入在預定閾值內。技術方案17.如技術方案8所述的方法,其中,在辨認所述至少兩個潛在協同發音 標記之後,所述方法還包括將所述最高等級數值序列陳述給話語源;以及由所述源向語音識別系統指示所述最高等級數值序列正確。技術方案18. —種識別語音的系統,包括麥克風,所述麥克風被配置為從源接收話語,所述話語包括具有數字串的數值序 列,所述數字串包括多個標記;以及處理器,所述處理器選擇性地且可操作地連接到所述麥克風,所述處理器包括用於檢測與所述數字串中的所述至少兩個潛在協同發音標記相關的協同發音問 題的計算機可讀代碼;以及用於使用i)與所述數值序列潛在相應的動態產生的可能數值序列和/或ii)至 少一個補充聲學模型來辨認所述數值序列的計算機可讀代碼。技術方案19.如技術方案18所述的系統,其中,用於使用至少一個補充聲學模型 辨認所述數值序列的所述計算機可讀代碼包括用於開發基本聲學模型的計算機可讀代碼,所述基本聲學模型包括多個字或表 達,所述多個字或表達中的每一個都被分配了統計數值;用於測試所述基本聲學模型以使用所述多個字或表達識別至少一個協同發音情 況的計算機可讀代碼;以及用於基於測試所述基本聲學模型的結果產生所述至少一個補充聲學模型的計算 機可讀代碼。技術方案20.如技術方案19所述的系統,其中,用於使用至少一個補充聲學模型 辨認所述數值序列的所述計算機可讀代碼還包括用於將所述話語的聲能轉換為數字比特模式的計算機可讀代碼;用於將所述話語的所述數字比特模式與所述至少一個補充聲學模型中包括的模式進行比較的計算機可讀代碼;用於基於所述比較產生概率評分的計算機可讀代碼;以及用於在識別到所述概率評分超過預定百分比時將所述基本聲學模型切換到所述 至少一個補充聲學模型的計算機可讀代碼。技術方案21.如技術方案18所述的系統,其中,用於使用所述動態產生的可能數 值序列來辨認所述數值序列的所述計算機可讀代碼包括用於產生所述數字串的N最佳列表的計算機可讀代碼,所述N最佳列表包括多個 可能數值序列,每個所述可能數值序列潛在地相應於話語中陳述的數值序列,其中多個可 能數值序列中的每一個根據信任評分被分等級;用於辨認與所述數字串相應的至少兩個潛在協同發音標記的計算機可讀代碼;以 及用於基於所述N最佳列表中包括的最高等級可能數值序列確定是否存在協同發 音問題的計算機可讀代碼,所述協同發音問題與所述至少兩個潛在協同發音標記相關。技術方案22.如技術方案21所述的系統,用於使用所述動態產生的可能數值序列 來辨認所述數值序列的所述計算機可讀代碼還包括用於對於所述至少兩個潛在協同發音標記掃描所述N最佳列表中包括的多個可 能數值序列的計算機可讀代碼,以從下一最高等級可能數值序列開始到最低等級可能數值 序列的順序完成所述掃描;以及用於當所掃描的可能數值序列中的一個可能數值序列的信任評分與最高等級數 值序列的信任評分之間的差落入預定閾值內時選擇該一個可能數值序列的計算機可讀代碼。技術方案23.如技術方案18所述的系統,還包括選擇性地且可操作地連接到所 述語音識別系統的音頻部件,所述音頻部件被配置為響應於來自所述處理器的命令將選擇 的可能數值序列陳述給話語源。技術方案24.如技術方案16所述的系統,其中,所述系統被配置為在移動交通工 具中使用。
通過參照下面的詳細描述和附圖,本公開的示例的特徵和優點將變得明顯,其中, 相同的標號相應於相似的部件,但是可能不是相同部件。為了簡明,具有先前描述的功能的 標號或特徵可能結合其出現的其它附圖描述,或者可能不結合其出現的其它附圖描述。圖1是示出使用在此公開的識別語音的示例方法的系統的示例的示意圖;圖2是示出語音識別系統的示例的示意圖;圖3是示出識別語音的方法的示例的流程圖;圖4是示出辨認包括在話語中的數值序列的方法的示例的流程圖;圖5是對於話語「6,1,1」的易混淆矩陣的示例;圖6是對於話語「6,1,1」的聲學模型的示例;圖7是示出辨認包括在話語中的數值序列的方法的另一示例的流程圖;以及圖8是示出圖7所示方法示例的流程圖。
具體實施例方式在此公開的方法的(一個或多個)示例可以有利地用於辨認用戶說出的數值序 列,其中,這種數值序列包括具有(一個或多個)協同發音問題的一個或多個數字串。作為 獨立系統或者作為另一系統的子系統(諸如被併入到圖1所示的配有遠程信息處理的交通 工具)的語音識別系統可以使用該方法來快速並且以相對高百分比的成功率辨認數值序 列。例如,當在購買物品或服務時向自動系統陳述信用卡號碼時,這種方法十分有用。此外, 辨認數值序列可以有利地在以任何語言(包括有聲調的語言諸如普通話)說出的話語中實 現。如在此使用的,術語「數值序列」是指進入語音識別系統的由用戶說出的數值或數 字的序列。數值序列的某些非限制性示例包括電話號碼、郵政編碼、社會保險號碼、學生證 號碼、信用卡號碼等等。在一些情況下,數值序列包括一個或多個數字串。如在此使用的, 「數字串」是指重複的數值或數字的序列。數字串的非限制性示例包括「5,5」、「9,9,9」,「2, 2,2,2」等等。在一些情況下,數字串可以包含協同發音模式和/或易受協同發音模式影響。另外,如在此使用的,術語「標記」是指話語中陳述的字、表達、序列等的拼寫正確 的表示。在一個示例中,數值序列「5,5,5」包括3個標記(即,每個「5」為一個標記)。在 另一示例中,字母序列「hello」僅包括一個標記。此外,術語「協同發音」是指連續說出或講出的字的重疊。在出現兩個或多個字的 協同發音的情況下,協同發音的字的協同發音模式隨之發生。在一個示例中,說出的第一個 字的最後的聲音與說出的第二個字的開始的聲音合併,導致一個組合的聲音或字。例如,話 語諸如「5,5」,當協同發音時,可能聽起來像「fi-five」。協同發音還被稱為話語中陳述的 兩個或更多個字一起說出。可以理解,「協同發音問題」或「協同發音情況」是指話語中陳述 的兩個或多個字是或者會是協同發音的情況。另外,在此使用的,術語「用戶,,包括能夠將話語陳述給語音識別系統的人或其它 生物體。在一些情況下,「用戶」還可以是也能夠將話語陳述給語音識別系統的非生物實體, 諸如自動機、機器人等。在這裡的許多情況下,術語「用戶」可以與短語「話語源」交換地使 用。此外,在語音識別系統與包括例如,遠程信息處理單元或其它交通工具專用通信裝置的 交通工具結合使用的情況下,,術語「用戶」可以是指交通工具所有者、操作者和/或乘客。 在這些情況下,術語「用戶」可以與條款籤署者/服務籤署者交換地使用。術語「連接」等在此被廣義地定義為包括各種不同的連接布置和組裝技術。這些 布置和技術包括,但不限於,(1) 一個部件與另一部件在之間沒有中介部件的情況下的直接 通信;和(2) —個部件與另一部件在之間具有一個或多個部件的情況下的通信,假設一個 部件「連接到」其它部件是指該一個部件以某種方式與所述其它部件可操作的通信(儘管 它們之間存在一個或多個額外部件)。還可以理解,「通信」被解釋為包括所有形式的通信,包括直接通信和間接通信。這 樣,間接通信可以包括兩個部件之間的藉助位於它們之間的(一個或多個)額外部件的通信。
還可以理解,可以在使用語音識別系統和/或軟體的任何系統中執行在此公開的 方法的示例。這種系統的示例包括,但不限於,數據輸入系統(諸如對於購買零售商品、服務等用於輸入信用卡信息的系統)、用於準備文件的系統(諸如用於準備診斷或醫學報告 的系統)、語音_文本計算機系統(諸如文字處理器或電子郵件系統)、在移動交通工具中 使用的系統(諸如使用遠程信息處理單元來獲得服務等的系統)等等。為了說明的目的, 下面將描述結合配備有遠程信息處理的機動車使用的示例方法。現參照圖1,系統10包括交通工具12、遠程信息處理單元14、無線載波/通信系統 16 (包括,但不限於,一個或多個蜂窩塔18、一個或多個基站和/或移動交換中心(MSC) 20 以及一個或多個服務提供者(未示出))、一個或多個地面網絡22以及一個或多個呼叫中心 24。在一個示例中,無線載波/通信系統16是雙向射頻通信系統。圖1所示的系統10的整體架構、設置和操作以及各個部件通常是本領域公知的。 因此,下面的段落提供這種系統10的一個示例的簡要概述。然而,可以理解,這裡沒有示出 的額外部件和/或其它系統可以採用在此公開的方法。交通工具12是移動交通工具,諸如摩託車、汽車、卡車、旅行車(RV)、船、飛機等 等,並且配備有適當的硬體和軟體,能夠使其通過無線載波/通信系統16進行通信(例如, 發送和/或接收語音和數據通信)。可以理解,交通工具12還可以包括適合在遠程信息處 理單元14中使用的額外部件。在圖1中大體示出部分交通工具硬體26,包括遠程信息處理單元14以及可操作地 連接到遠程信息處理單元14的其它部件。這種其它硬體26部件的示例包括麥克風28、揚 聲器30和按鈕、把手、開關、鍵盤和/或控制裝置32。通常,這些硬體26部件使用戶能夠借 助遠程信息處理單元14以及與遠程信息處理單元14通信的任何其它系統10部件進行通
fn °網絡連接或交通工具總線34可操作地聯接到遠程信息處理單元14。適當網絡連 接的示例包括控制器區域網絡(CAN)、媒體導向系統傳輸(MOST)、局域網際網路(LIN)、以 太網和其它適合的連接,諸如符合已知的IS0、SAE和IEEE標準和規範等的連接。交通工具 總線34使交通工具12能夠將信號從遠程信息處理單元14向交通工具12外部以及交通工 具12內部的設備和系統的各個單元發送,或者從遠程信息處理單元14接收信號,以執行各 種功能,諸如對門解鎖、執行個人舒適性設置等等。遠程信息處理單元14是車載裝置,其單獨地或者通過與呼叫中心24的通信提供 各種服務。遠程信息處理單元14通常包括可操作地連接到一種或多種類型的電子存儲器 38的電子處理裝置36、蜂窩電話晶片組/部件40、無線數據機42、包含位置檢測(例 如,全球定位系統(GPS))晶片組/部件44的導航單元、實時時鐘(RTC)46、短距離無線通信 網絡48(例如,藍牙 單元)和/或雙天線50。在一個示例中,無線數據機42包括在 處理裝置36內執行的電腦程式和/或軟體程序組。可以理解,可以在沒有上面列出的一個或多個部件(例如,短距離無線通信網絡 48)的情況下實施遠程信息處理單元14。還可以理解,遠程信息處理單元14還可以根據需 要包括額外部件和功能以用於特定的最終用途。電子處理裝置36可以是微控制器、控制器、微處理器、主處理器和/或交通工具通 信處理器。在另一示例中,電子處理裝置36可以是專用集成電路(ASIC)。可選地,電子處 理裝置36可以是與執行通用處理器的功能的中央處理單元(CPU)結合地工作的處理器。位置檢測晶片組/部件44可以包括全球定位系統(GPS)接收機、無線電三角測量系統、航位推算位置系統和/或它們的結合。具體地,GPS接收機響應於從GPS衛星星座 (未示出)接收到的GPS廣播信號提供交通工具12的緯度坐標和經度坐標和準確的時間。蜂窩電話晶片組/部件40可以是模擬、數字、雙模、雙帶、多模和/或多帶移動電 話。蜂窩電話晶片組/部件40使用800MHz模擬帶或800MHz、900MHz、1900MHz和更高數 字蜂窩頻帶的一個或多個規定頻率。可以使用任何適當的協議,包括數字傳輸技術,諸如 TDMA (時分多址)、CDMA (碼分多址)和GSM(全球移動通信系統)。在一些情況下,協議可 以是短距離無線通信技術,諸如藍牙 、專用短程通信(DSRC)或Wi-Fi。另外,與電子處理裝置36相關聯的是先前提到的實時時鐘(RTC)46,該實時時鐘 (RTC)46將準確的日期和時間信息提供給可能需求和/或請求這種日期和時間信息的遠程 信息處理單元14硬體和軟體部件。在示例中,RTC 46可以周期地提供日期和時間信息,例 如,每10毫秒。遠程信息處理單元14提供多種服務,其中部分可以是在此沒有列出的,並且遠程 信息處理單元14被配置為滿足一個或多個用戶或籤署者的請求。這種服務的若干示例包 括,但不限於建議路線規劃指示和結合基於GPS的晶片組/部件44提供的其它導航相關 服務;氣囊展開通知和結合遍布交通工具12中的各種衝撞和/或碰撞傳感器接口模塊52 和傳感器54提供的其它緊急或道路救援相關服務;以及信息娛樂相關服務,其中,通過經 由交通工具總線34或音頻總線58可操作地連接到遠程信息處理單元14的信息娛樂中心 56下載音樂、網頁、電影、電視節目、視頻遊戲和/或其它內容。在一個非限制性示例中,下 載的內容被存儲(例如,在存儲器38中)用於當前或稍後的回放。再次,上面列出的服務不是遠程信息處理單元14能夠提供的所有性能的詳盡列 表,而是簡單說明遠程信息處理單元14能夠提供的部分服務。交通工具通信通常使用無線電傳輸,以與無線載波系統16建立語音信道,從而可 以通過語音通道發送和接收語音和數據傳輸。交通工具通信可經由蜂窩電話晶片組/部件 40用於語音通信和無線數據機42用於數據通信。為了能夠通過語音信道進行成功的 數據傳輸,無線數據機42應用一些類型的編碼或調製來轉換數字數據,從而能夠通過 蜂窩電話晶片組/部件40中集成的聲碼器或語音編解碼器進行通信。可以理解,在此公開 的示例中可以使用提供可接受數據率和誤碼的任何適當編碼或調製技術。通常,雙模天線 50服務於位置檢測晶片組/部件44和蜂窩電話晶片組/部件40。麥克風28向用戶提供用於輸入言語或其它可聽命令(諸如包括數值序列的話語) 的裝置,並且麥克風28可以配備有利用本領域公知的人/機接口(HMI)技術的嵌入式語音 處理單元。相反,揚聲器30將言語輸出提供給車輛乘員,並且可以是專用於與遠程信息處 理單元14 一起使用的獨立揚聲器或者可以是交通工具音頻部件60的一部分。在這兩種情 況下並如前面所述的,麥克風28和揚聲器30使交通工具硬體26和呼叫中心24能夠通過 可聽語音與乘員進行通信。交通工具硬體26還包括一個或多個按鈕,把手、開關、鍵盤和/ 或控制裝置32,用於使交通工具乘員激活或接合一個或多個交通工具硬體部件。在一個示 例中,按鈕32中的一個可以是用於發起與呼叫中心24(可以是人工顧問62或者是自動呼 叫響應系統62』)的語音通信的電子按鈕。在另一示例中,按鈕32中的一個可以用於發起 緊急服務。麥克風28還選擇性且可操作地連接到處理器29。如圖2所示,處理器29包括存儲器90和語音識別引擎92。語音識別引擎92被配置為運行具有計算機可讀代碼的一個或 多個軟體程序和/或軟體例行程序以執行下述方法的示例的各個步驟。存儲器90被配置 為存儲在執行所述方法的各個步驟中使用的信息。例如,存儲器90可以在其中存儲基本聲 學模型以及一個或多個補充聲學模型以在執行在此公開的方法的多個示例之一中使用。在 這個示例中,語音識別引擎92選擇性且可操作地與存儲器90進行通信,以獲得並使用這些 模型中的一個或多個,從而最終辨認話語中陳述的數值序列。下面將結合圖4-圖6描述這 個示例的細節。當嘗試辨認所說出的數值序列時,存儲器90還可以或以其他方式被配置為 臨時存儲語音識別引擎92動態產生的N最佳列表。下面將參照圖7和圖8描述這個示例 方法的進一步的細節。音頻部件60選擇性地連接到交通工具總線34和音頻總線58。音頻部件60經由 音頻總線58接收模擬信息,將其表達為聲音。經由交通工具總線34接收數字信息。音頻 部件60提供AM和FM無線電、衛星無線電、⑶、DVD、多媒體以及除信息娛樂中心56之外的 其它功能。音頻部件60可以包含揚聲器系統,或者可以經由交通工具總線34和/或音頻 總線58上的仲裁使用揚聲器30.音頻部件60還選擇性且可操作地連接到處理器29。在這裡公開的至少部分示 例中,音頻部件60還被配置為響應於來自處理器29的命令將一個或多個可能的數值序列 (由語音識別引擎92產生)陳述給話語源(例如,交通工具12的用戶),以最終確定話語 是否得到正確辨認。下面還將描述這些示例的進一步細節。麥克風28、處理器29(包括存儲器90和語音識別引擎92)以及音頻部件60的組 合在此還被稱為「語音識別系統」,並且由圖2中的標號100來表示。對於在此描述的示例 方法,語音識別系統100是圖1中描述的系統10的子系統。根據上述重申,語音識別系統 100可以合併到其它系統中,或者在一些情況下,可以用作單獨的系統。交通工具衝撞和/或碰撞傳感器接口 52可操作地連接到交通工具總線34。衝撞 傳感器54經由衝撞和/或碰撞傳感器接口 52將關於交通工具碰撞嚴重程度的信息提供給 遠程信息處理單元14,諸如撞擊角度和承受的力量。連接到各種傳感器接口模塊66的其它交通工具傳感器64可操作地連接到交通工 具總線34。交通工具傳感器64的示例包括,但不限於,陀螺儀、加速度計、磁力計、發射檢測 和/或控制傳感器、環境檢測傳感器等等。上面列舉的一個或多個傳感器64可以用於獲得 交通工具數據,所述數據由遠程信息處理單元14或呼叫中心24使用來確定交通工具12的 操作。非限制性示例傳感器接口模塊66包括動力系控制、氣候控制、車身控制等。在非限制示例中,交通工具硬體26包括顯示器80,顯示器80可以可操作地直接 連接到遠程信息處理單元14或與遠程信息處理單元14進行通信,或者顯示器80可以是音 頻部件60的一部分。顯示器80的非限制示例包括VFD (真空螢光顯示器)、LED (發光二 極管)顯示器、駕駛員信息中心顯示器、無線電顯示器、任意文本裝置、抬頭顯示器(HUD)、 IXD(液態晶體二極體)顯示器等等。無線載波/通信系統16可以是行動電話系統或在交通工具硬體與地面網絡22之 間傳送信號的任何其它適合的無線系統。根據示例,無線載波/通信系統16包括一個或多 個蜂窩塔18、基站和/或移動交換中心(MSC) 20以及將無線系統16與地面網絡22連接所 需要的任何其它網絡部件。可以理解,各種蜂窩塔/基站/MSC布置都是可能的,並且可以與無線系統16 —起使用。例如,基站20和蜂窩塔18可以公置在相同站點,或者它們可以 被相距遙遠地定位,並且單個基站20可以聯接到多個蜂窩塔18或者多個基站20可以與單 個MSC 20聯接。語音編解碼器或聲碼器還可以包含在一個或多個基站20中,但是取決於 無線網絡16的具體架構,可以包含在移動交換中心20或者一些其它網絡部件內。地面網絡22可以是連接到一個或多個座機電話並且將無線載波/通信網絡16連 接到呼叫中心24的傳統的基於地面的電信網絡。例如,地面網絡22可以包括公用交換電 話網(PSTN)和/或網際網路協議(IP)網絡。可以理解,可以按照標準有線網絡、其它光纖網 絡、電纜網絡、諸如無線區域網(WLAN)或提供寬帶無線接入(BWA)的網絡的其它無線網絡 或其結合的形式,實現地面網絡22的一個或多個部分。呼叫中心24被設計為向交通工具硬體26提供多個不同系統後端功能。根據在此 示出的示例,呼叫中心24通常包括一個或多個交換機68、伺服器70、資料庫72、人和/或 自動顧問62、62』、處理器84以及本領域的技術人員公知的各種其它電信或計算機設備74。 這些各種呼叫中心部件經由網絡連接或總線76(諸如與先前結合交通工具硬體26描述的 交通工具總線34類似的)彼此聯接。經常與計算機設備74結合使用的處理器84通常配置有適當的軟體和/或程序, 這些軟體或程序被配置為實現各種呼叫中心24的功能。在通過呼叫中心24通信的情況下,人工顧問62可以實際出現在呼叫中心24,或者 可以位於距離呼叫中心24較遠的位置。可以是專用交換(PBX)交換機的交換機68路由進來的信號,從而通常將語音傳輸 發送到人工顧問62或者自動響應系統62』,並且數據傳輸被傳遞給數據機或其它設備 (未示出),用於解調和進一步的信號處理。數據機優選地包括編碼器,如前面解釋地, 並且數據機可以連接到各種裝置,諸如伺服器70和資料庫72。例如,資料庫72可以被 設計為存儲籤署者個人資料記錄,籤署者行為模式或任何其它相關的籤署者信息。儘管圖 示的示例已經描述為可以與有人的呼叫中心24結合使用,但是可以理解,呼叫中心24可以 是任何中央或遠程設施,有人或無人、移動或固定,理想地從該呼叫中心或向該呼叫中心交 換語音或數據通信。蜂窩電話服務提供者通常擁有和/或操縱無線載波/通信系統16。可以理解,盡 管蜂窩電話服務提供者(未示出)可以位於呼叫中心24處,但是呼叫中心24是獨立的與蜂 窩電話服務提供者不同的實體。在一個示例中,蜂窩電話服務提供者位於遠離呼叫中心24 的位置。蜂窩電話服務提供者向用戶提供電話和/網際網路服務,而呼叫中心24是遠程信息 處理服務提供者。蜂窩電話服務提供者通常是無線運營商(例如,Verizon無線 、AT&T 、 Sprint⑧等)。可以理解,蜂窩電話服務提供者可以與呼叫中心24交互,以向用戶提供各 種服務。在圖3中總體描述了識別語音的示例方法。所述包括向語音識別系統100陳述 包括數值序列的話語,所述數值序列包括具有多個標記的數字串(如標號300所示);檢測 與數字串中的至少兩個潛在協同發音的標記相關的協同發音問題(如標號302所示);以 及辨認數值序列(如標號304所示)。可以通過向麥克風28至少說出數值序列來實現向語音識別系統100陳述話語。 話語通過麥克風28,且直接輸入到處理器29的語音識別引擎92。話語可以包括字母序列、與數值序列結合的字母序列或單獨的數值序列。例如,用戶可向麥克風28陳述「my phone number is248-555_9611」。包括「my phone number is」」的話語部分被認為是字母序列, 而包括「248-555-9611,,的話語部分被認為是數值序列。在這個示例中,數值序列包括兩個 協同發音模式i)5,5,5和ii)l,l。此外,整個話語包括14個標記,其中的10個僅屬於數 值序列。一旦已經將話語陳述給語音識別系統100,語音識別引擎92就可以應用(由適當 軟體程序和/或例行程序運行或執行的)一種方法或多種不同方法來辨認話語。現將結合 圖4至圖6描述這種方法的一個示例。所述方法的這個示例涉及使用至少一個補充聲學模 型來辨認數值序列。現參照圖4,使用(一個或多個)補充聲學模型來辨認數值序列的方法包括開發 包括多個字或表達的基本聲學模型(如圖4中的標號400所示)。可以使用本領域技術人 員公知的任何適當的語音記錄方法來開發基本聲學模型。開發基本聲學模型的一個示例包 括對多個不同源講出的各種話語進行多個音頻記錄,並且從這些音頻記錄開發基本聲學模 型。在這個示例中,講話者(可以位於計算機前面,該計算機具有可操作地連接於其上的麥 克風)響應計算機顯示器提示的一組引導話語、一組書面指令或某些其它方式。在一個示 例中,使用由計算機運行的適當的語音識別軟體程序來產生弓I導話語。例如,引導話語可以 包括請求說話者說出由電腦程式可識別的特定的字、短語、序列、表達等。例如,引導話語 的示例可以包括數字「2」、序列「5,5」、短語「place a call,」、表達「Good morning!」等 等。對話語(包括音素)進行記錄、數位化和分析,以最終開發用於每個特定字、表達等的 高斯分布。在許多情況下,還可以對每個話語形成文字副本。這種文字副本可以用於各種 目的,諸如提供話語本身的文字表示。使用軟體來創建高斯分布,高斯分布包括組成記錄和 文字副本的每個字的聲音的統計表示。這樣,話語是分配的統計數值(即,用於開發高斯分 布的參數)。然後,在這裡被稱為基本聲學模型的資料庫中存儲被編碼為參數的記錄的話語 (包括它們的數值統計值和文字副本)。然後,可以用在基本聲學模型中存儲的一個或多個字、短語、序列和/或表達來測 試基本聲學模型以識別任何潛在協同發音情況或問題(如圖4中的標號402所示)。例如, 可以通過將一組話語(例如,由引導話語提示的相同話語)陳述給運行用於開發或訓練上 述基本聲學模型的語音識別軟體程序的計算機來完成這種測試。當向系統100講出話語 時,將(一個或多個)字進行分析並且與基本聲學模型中的字進行比較。概率值與話語和 聲學模型中的潛在匹配相關聯。概率值越高,說話者所說的(一個或多個)字越有可能常 駐在本案的聲學模型中。分析一組話語的識別錯誤的頻率以確定哪個話語最經常被誤識別。其後,基於基 本聲學模型的測試產生每個字、短語等的易混淆矩陣。易混淆矩陣是統計工具,可用於確定系統(諸如語音識別系統100)是否將實際類 (例如,實際話語)與預測類(例如,預測話語)混淆。在這裡描述的示例中,從在測試基 本聲學模型期間語音識別系統100所認為的實際話語來得到預測話語。例如,系統100可 能將話語「6,1,1」誤識別為「6,1」、「6,1,1,1」、「6,0,1」等等。在圖5中示出對於話語「6, 1,1」的易混淆矩陣的示例。可以理解,為了便於理解,圖5所述的易混淆矩陣已經被簡化。 在這個示例中,易混淆矩陣顯示了 例如,對於被測試的說話者中的60個,系統100將話語正確地理解為「6,1,1」,然而,i)對於上述說話者中的31個,系統100將話語錯誤地理解為 「6,1」(這是通常被稱為缺失錯誤的示例),ii)對於上述說話者中的8個,系統100將話語 錯誤地理解為「6,0,1」(這是通常被稱為替換錯誤或被簡單地稱為錯誤的示例),以及iii) 對於上述說話者中的1個,系統100將話語錯誤地理解為「6,1,1,1」(這是通常被稱為插入 錯誤的示例)。根據易混淆矩陣,可以用話語「6,1,1」推斷出常見協同發音問題的頻率。如在此 使用的,「常見協同發音問題」是指重複出現的且通過測試基本聲學模型確定的協同發音問 題。在語音識別中通常預料到這種常見協同發音問題。例如,根據易混淆矩陣,可以得出這 樣的結論系統100將話語「6,1,1」與「6,1,,、「6,1,1,1」或其它一些變形混淆。測試數據 的分析顯示系統100對於這個特定話語具有常見協同發音問題。當識別到話語「6,1,1」的常見協同發音問題後,如果協同發音問題超過預定閾值, 則對於該話語可以產生至少一個補充聲學模型。在一個非限制性示例中,如果系統100誤 識別至少10%的話語,則可以產生至少一個補充聲學模型,以調節通常被誤識別的序列。可 以理解,預定閾值至少部分地取決於使用模型的應用的關鍵程度而變化。例如,如果在諸如 醫療副本等的關鍵應用中協同發音問題超過一定百分比例如20%,則對於該話語可以產生 至少一個補充聲學模型。換句話說,可以基於基本聲學模型的測試結果來產生一個或多個 補充聲學模型(如圖4中的標號404所示),其中,補充模型被專門設計為調節常見協同發 音問題。在圖6中示出對於話語「6,1,1」的各聲學模型示例。現參照圖6所示的示例,基本聲學模型包括從0到9的數字,並且通過X標識補充 聲學模型,X是標示的數字序列「1,1」。標示的數字序列通常表示具有至少兩個協同發音的 標記的數值序列。在許多情況下,通過X表示的數值序列包括數字串。如圖6所示,例如, 字母X標識的標示的數字序列表示1,1。如下面將進一步描述的,只要切換到補充聲學模 型,來代替基本聲學模型時,語音識別引擎92就應用字母X。這樣,可以結合基本聲學模型 使用補充聲學模型以準確地解釋話語。在示例中,當語音識別系統100使用基本聲學模型不能識別話語「6,1,1」的部分 "1,1"(即,標記1,1是潛在地協同發音的)的統計概率較高時,系統100調用圖6所示的 補充聲學模型。在這種情況下,系統100確定存在協同發音問題,並且搜索與話語的問題部 分匹配的補充聲學模型。更具體地,當用戶向麥克風28陳述話語時,語音識別引擎92將所 說的序列的聲能轉換為數字比特模式,並且嘗試將話語的數字比特模式與基本聲學模型中 的模式進行匹配。語音識別引擎92產生話語的概率評分,並將這個評分與基本聲學模型中 的評分進行比較。在示例中,可以使用適當的估計算法(例如結合隱馬爾可夫模型使用的 維特比類型算法)來產生概率評分。然後,產生這種概率以用於潛在匹配。使用上述示例, 如果用戶說出「6,1,1」,則在與基本聲學模型進行比較時,系統100例如確定話語等於「6, 1」的機率是62%,話語等於「6,1,1」的機率是51%。儘管已經做出話語與模型之間的正確 匹配,但是這個概率是低的。如果對於潛在匹配的概率評分在預定百分比之上(例如,可以是大約60%至大約 75%之間的任何百分比),則語音識別引擎92認為話語中陳述的數值序列不具有協同發音 問題。如果沒有明顯的協同發音問題,則語音識別系統100將話語應用到基本聲學模型,該 基本聲學模型具有辨認所講話語中的數值序列的最高概率。例如,根據基本聲學模型,語音識別引擎92檢索序列中的數字「6」、數字「1」和數字「1」。在一些情況下,自動應用辨認的 數值序列來滿足在最初說出話語時用戶提交的請求、命令等。在其它情況下,系統100可以 其他方式將命令提交到麥克風28,以向用戶陳述數值序列,用於驗證。在陳述給用戶的數值 序列是錯誤的情況下,系統100可以i)請求用戶重複話語並且再次應用辨認方法的當前示 例,或者ii)自動應用補充聲學模型來辨認序列。向回參照概率評分與預定百分比的比較,如果概率評分在預定百分比之下(例 如,在75%或65%之下),那麼語音識別引擎92將基本聲學模型切換到至少一個補充聲學 模型。然後,系統100應用補充聲學模型來辨認數值序列。例如,如果用戶說出數值序列 「6,1,1」,則系統100基於上述測試識別出已知該話語具有常見協同發音問題(即,「1,1」 部分)。再次使用上面提供的示例,如果語音識別引擎92確定話語是「6,1」的概率為大約 62%,並且話語是「6,1,1」的概率為大約51% (兩者都在最低的65%閾值之下),則語音識 別引擎92切換到補充聲學模型。然後,可以使用補充聲學模型辨認話語中包括的數值序列。更具體地,可以使用基 本聲學模型以高概率辨認「6」,並且可以使用補充聲學模型用表示「1,1」的參考字母X(對 於具體話語特別創建的)替換話語中包括的「1,1」序列。其後,語音識別引擎92重新計算 話語的概率評分。在示例中,如果話語與字母X(即,是「1,1」)相應的概率是大約76%,則 系統100用字母X (或「 1,1」)替換話語中的協同發音的序列。可以理解,如果使用補充聲學模型時,有多於一種的明顯可能性(例如,模型包括 字母X和字母Y,兩者都可能與話語匹配),則將對於每種可能性計算概率。然後,系統100 將選擇具有最高概率值的字母,該字母表示用戶實際陳述的話語。當使用補充聲學模型來辨認所講的話語時,系統100可以自動應用所匹配的字母 來滿足在最初說出話語時用戶提交的請求、命令等,或者系統100可以其他方式將命令提 交到麥克風28以向用戶陳述所匹配的數值序列用於驗證。在陳述給用戶的數值序列是錯 誤的情況下,系統100可以請求用戶重複話語並且再次應用識別方法的當前示例。在另一示例中,可以使用動態產生的與說出的數值序列潛在相應的可能數值序 列,來實現對話語中包括的數值序列的辨認。返回參照圖3以及根據上面重申的,在向語音 識別系統100陳述話語之後(如標號300所示),所述方法包括檢測與數字串中的至少兩個 潛在協同發音的標記相關的協同發音問題(如標號302所示)。在這個示例中,可以使用N 最佳列表來實現協同發音問題的檢測。在示例中,所述方法包括產生用於包括在數值序列 中的數字串的N最佳列表(如標號700所示);辨認與數字串相應的至少兩個潛在協同發 音的標記(如標號702所示);以及基於N最佳列表中包括的最高等級數值序列確定是否 存在協同發音問題(如標號704所示)。在此使用的「N最佳列表」是話語可能成為的各種可能性的列表。可以使用(例 如,通過語音識別引擎92運行的)N最佳算法來確定N個可能性並對這些可能性(即,1最 佳可能性、2最佳可能性等)中的每一個進行評級(即,信任評分)。例如,N最佳算法可以 是維特比類型搜索算法,該算法基於先前觀察的在語音測試處理期間從多個用戶獲得的輸 出的序列使用隱馬爾可夫模型。參照當前的公開,對於說出的數值序列中包括的數字串可 以產生N最佳列表。N個最有可能的可能性包括多個可能的數值序列,每個可能的數值序 列潛在地相應於話語中陳述的數值序列。每個最有可能的可能性具有與其相關聯的信任評分,該信任評分由N最佳算法從數學上確定。基於所述信任評分按照從最高可能性到最低 可能性的順序排列這些可能性。例如,對於話語「5,5,5」的N最佳列表可以包括「5,5,5」 作為1最佳可能性,如果「5,5,5」具有最高信任評分的話,並且可以包括「5,5」作為2最佳 可能性,如果「5,5」具有第二高信任評分的話,等等。在示例中,用戶向麥克風28說出數值序列,諸如「248-555-9611」。當接收到話語 時,語音識別系統100識別到數值序列包括兩個數字串i) 「5,5,5」和ii) 「1,1」,並且為每
個數字串動態產生N最佳列表。在產生每個N最佳列表之後,系統100辨認與數字串對應的至少兩個潛在地協同 發音的標記。例如,可以通過將命令從語音識別引擎92提交到音頻部件60以將說出的數 值序列(如當前通過語音識別引擎92辨認的)向回陳述給用戶用於驗證,來實現這種辨 認。在用戶指示音頻部件60陳述的數值序列為錯誤的情況下,他/她可以用語言(例如, 通過對麥克風28講話)或者用動作(例如,通過按下按鈕以指示這種情況)來提出這種指 示。當接收到陳述的數字序列為錯誤的用戶指示時,語音識別引擎92確定數值序列包括至 少兩個潛在地協同發音的標記。例如,如圖8的標號800所示,如果實際話語是「5,5,5」,但 是系統100將數字串發音為「5,5」,則用戶將指示序列錯誤。這時,系統100認識到包括在 「5,5,5」數字串中的標記(如系統100理解的)可能是協同發音的。在另一示例中,可通過識別到話語源(例如,系統100的用戶)通常或一貫地對一 個或多個特定數字串進行協同發音,來辨認數字串中存在的至少兩個潛在地協同發音的標 記。例如,通過語音識別系統100的存儲器90產生和存儲所述源的資料,其中,這種資料包 括與該系統的用戶說出的話語相關聯的協同發音問題的實例。至少部分地取決於與話語中 陳述的一個或多個特定數字串相關聯的協同發音問題的頻率,用戶可以被分類為對他/她 的話語中陳述的特定數字串一貫協同發音的用戶。在這種情況下,如果數字串在之後進行 的話語中被陳述,由於會被協同發音,系統100可以自動識別這種數字串。例如,可以在不 必直接與用戶進行驗證這個事實的情況下進行這種識別。在辨認到數字串中的至少兩個標記最可能協同發音之後,語音識別引擎92從N最 佳列表選擇最高等級的數值序列(即,1最佳可能性),並且向音頻部件60提交命令以向用 戶陳述選擇的數值序列(如圖8中的標號802所示)。用戶將i)驗證序列,或者ii)通過 上述方法指示數值序列是錯誤的(如圖8中的標號804所示)。在示例中,如果用戶指示1最佳數值序列正確,則他/她將指示這種情況。在這個 示例中,系統100應用選擇的數值序列以完成用戶最初請求系統10執行的任務(例如,使 用信用卡信息購買零售商品、使用特定電話號碼發起電話呼叫等等)(如圖8中的標號806 所示)。在另一示例中,如果用戶指示1最佳數值序列或可能性是錯誤的,則語音識別引 擎92確定協同發音問題事實上的確存在。在做出這種確定後,語音識別引擎92對於至少 兩個潛在協同發音的標記掃描N最佳列表中包括的可能數值序列。通常,以從第二最高等 級可能數值序列到最低等級可能數值的順序進行這種掃描。在可能數值序列掃描期間,語 音識別引擎92 (使用適當的軟體程序)從N最佳列表選擇下一個最高等級可能性,並且計 算該數值序列與最初選擇的可能數值序列(在這種情況下,1最佳可能性)之間的信任評分 的差。如果計算結果(即信任評分之間的差)落入預定閾值內,則語音識別引擎92選擇該所選序列(如圖8中的標號808所示)。在非限制性示例中,預定閾值的範圍從大約25% 到大約30%。然而,可以理解,例如,對於更重要的應用諸如對於醫療副本等,預定閾值可以 更高。然後,用最新選擇的可能性(即,信任評分之間的差落入預定閾值內的可能性)替換 最初選擇的可能數值序列(再次,在這種情況下,1最佳可能性)。例如,如果1最佳可能性 和2最佳可能性的信任評分分別是90%和75%,則所述評分之間的差是15%。假設預定閾 值是25%,因為所述差(15% )小於預定閾值,所以用2最佳可能性替換1最佳可能性。在 另一示例中,如果2最佳可能性具有信任評分60%,則評分之間的差將是30%。在這個示 例中,這個差(30%)高於預定閾值(25%),因此2最佳可能性將被忽略。當在N最佳列表 中有多於一個的可能性具有低於預定閾值的差時,則這些可能性可以都選擇,並且最終呈 現給用戶用於驗證。可以理解,如果語音識別引擎92識別到所選的數值序列與最初選擇的數值序列 的信任評分之間的差落在預定閾值之外,則將重新掃描N最佳列表並且將選擇另一可能 性。然後,語音識別引擎92計算這個接下來選擇的可能性與最初選擇的可能性的信任評分 之間的差。如果該差落在閾值內,則引擎92將選擇這個接下來選擇的可能性。如果該差落 在預定閾值之外,則引擎92再次重新掃描N最佳列表。可以理解,直到i)可能性之一產生 落入閾值內的差,或ii)已經掃描所有可能性,可以完成重新掃描。在稍後的示例中,系統 100可以要求用戶重複話語,並且可以產生新的N最佳列表。參照回圖8,在從N最佳列表選擇可能性之一之後,語音識別引擎92向音頻部件 60提交另一命令,以向用戶陳述新選擇的可能數值序列(如圖8中的標號808所示)。用 戶可以再次指示新選擇的可能數值序列是正確的還是錯誤的(如圖8中的標號810所示)。 例如,如果用戶指示新選擇的可能數值序列正確,則新選擇的可能數值序列被認為是實際 說出的序列,並且可以被系統10應用(如圖8中的標號812所示)。可以理解,如果用戶指示新選擇的可能數值序列是錯誤的,則重複上述方法以從N 最佳列表選擇另一可能數值序列。在一些情況下,所述另一可能數值序列在N最佳列表中 的等級低於任何先前選擇的可能性。在i)已經嘗試了 N最佳列表中包括的所有可能性,或者ii)已經完成了預定數量 的迭代之後,語音識別引擎92向音頻部件60提交請求用戶重複話語的命令。在一些情況 下,請求重複話語包括提示用戶以預定方式陳述話語。例如,系統100可以提示用戶更慢地 重複話語,從而系統100能夠更加仔細地清楚表達該話語。然後,用戶可以將話語陳述給麥 克風28,在此之後,語音識別引擎92基於重複的話語重新產生N最佳列表。然後,可以應用 上述方法的若干步驟以辨認重複的話語。可以理解,可以一起使用在此公開的方法。例如,結合圖7和圖8描述的N最佳方 法可以用於辨認話語的協同發音問題,然後可以切換到補充聲學模型(結合圖4至圖6描 述的)以尋找與協同發音的話語特別相關聯的字母。儘管已經詳細描述了若干示例,但是對於本領域的技術人員明顯的是,可以修改 公開的示例。因此,上面的描述被認為是示例性的而不是限制性的。
權利要求
一種識別語音的方法,包括將包括數值序列的話語陳述給語音識別系統,所述數值序列包含了包括多個標記的數字串;檢測與所述數字串中的至少兩個潛在協同發音標記相關的協同發音問題;以及通過使用i)與所述數值序列潛在相應的動態產生的可能數值序列和/或ii)至少一個補充聲學模型,來辨認所述數值序列。
2.如權利要求1所述的方法,其中,在檢測協同發音問題之前,所述方法還包括 開發基本聲學模型,所述基本聲學模型包括多個字或表達,所述多個字或表達中的每一個都被分配了統計數值;測試所述基本聲學模型以使用所述多個字或表達識別至少一個協同發音情況;以及 基於測試所述基本聲學模型的結果產生所述至少一個補充聲學模型。
3.如權利要求2所述的方法,其中,測試所述基本聲學模型包括 將一組話語陳述給所述語音識別系統;將這組話語與易混淆矩陣進行比較;以及根據所述比較,用這組話語中的至少一個話語確定常見協同發音問題的頻率。
4.如權利要求3所述的方法,其中,當所述常見協同發音問題的頻率超過預定閾值時, 產生所述至少一個補充聲學模型。
5.如權利要求4所述的方法,其中,檢測與所述數字串中的所述至少兩個潛在協同發 音標記相關的所述協同發音問題,其中所述方法還包括將所述話語的聲能轉換為數字比特模式;以及將所述話語的所述數字比特模式與所述至少一個補充聲學模型中包括的模式進行比 較;以及基於所述比較產生概率評分。
6.如權利要求5所述的方法,其中,如果所述概率評分超過預定百分比,則所述方法還 包括將所述基本聲學模型切換到所述至少一個補充聲學模型。
7.如權利要求1所述的方法,其中,檢測所述協同發音問題包括產生用於所述數字串的N最佳列表,所述N最佳列表包括多個可能數值序列,每個可能 數值序列潛在地相應於所述話語中陳述的數值序列,其中多個可能數值序列中的每一個根 據信任評分被分等級;辨認與所述數字串相應的所述至少兩個潛在協同發音標記;以及 基於所述N最佳列表中包括的最高等級可能數值序列確定是否存在協同發音問題。
8.如權利要求7所述的方法,其中,在辨認所述至少兩個潛在協同發音標記之後,所述 方法還包括將所述最高等級數值序列陳述給話語源;以及 由所述源向語音識別系統指示最高等級數值序列是錯誤的。
9.如權利要求8所述的方法,其中,存在所述協同發音問題,其中所述方法還包括 對於所述至少兩個潛在協同發音標記掃描所述N最佳列表中包括的多個可能數值序列,以從第二高等級可能數值序列開始到最低等級可能數值序列的順序完成掃描;以及 當所掃描的可能數值序列中的一個可能數值序列的信任評分與最高等級數值序列的信任評分之間的差落入預定閾值內時,選擇該可能數值序列。
10.如權利要求8所述的方法,其中,存在所述協同發音問題,其中所述方法還包括 對於所述至少兩個潛在協同發音標記掃描N最佳列表中包括的多個可能數值序列,以 從下一最高等級可能數值序列開始到最低等級可能數值序列的順序完成所述掃描;識別到所述下一最高等級可能數值序列的信任評分與最高等級數值序列的信任評分 之間的差落在預定閾值之外;以及對於所述至少兩個潛在協同發音標記重新掃描N最佳列表中包括的多個可能數值序 列,以從第三最高等級可能數值序列開始到所述最低等級可能數值序列的順序完成所述重 新掃描,並且繼續對N最佳列表進行重新掃描,直到可能數值序列之一的信任評分與最高 等級數值序列的信任評分之間的差入在預定閾值內。
全文摘要
一種識別語音的方法,包括將包括數值序列的話語陳述給語音識別系統,所述數值序列包含了包括多個標記的數字串,並且檢測與數字串中的至少兩個潛在協同發音標記相關的協同發音問題。通過使用i)與數值序列潛在相應的動態產生的可能數值序列和/或ii)至少一個補充聲學模型,來辨認數值序列。在此還公開了實現這種方法的系統。
文檔編號G10L15/18GK101996629SQ20101026068
公開日2011年3月30日 申請日期2010年8月20日 優先權日2009年8月21日
發明者G·塔爾瓦, R·錢加爾瓦拉延, S·J·沃蘭-諾瓦克, U·阿倫 申請人:通用汽車有限責任公司